nttコミュニケーション科学基礎研究所 中野允裕...
TRANSCRIPT
![Page 1: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/1.jpg)
1
ノンパラメトリックベイズによるメディア処理
NTTコミュニケーション科学基礎研究所 中野允裕
nakanomasahirolabnttcojp
2012 11 15 AIチャレンジ研究会
2
56年前であれば
教科書に載っているような各種ツールの ノンパラベイズ化が話題の中心になっていたが
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
3
2006 2012
Infinite HMM [Beal+2002]
HDP-HMM [Teh+2006]
Sticky HDP-HMM [Fox+2007]
Block diagonal iHMM [Stepleton+2009]
Infinite factorial HMM [Van Gael+2008]
Infinite hierarchical HMM [Heller+2008]
Infinite latent event model [Wingate+2009]
Infinite dynamic Bayesian net [Finale+2011]
Hidden Markov model
Combinatorial State space model
Infinite-gram model [Mochihashi amp Sumita2007]
Sequence memoizer [2009以降多数]
N-gram model
IBP NMF [2007以降多数]
Mondrian iHMM [Nakano+2012]
GaP NMF [Hoffman+2010]
Infinite ICA [2007以降多数]
Infinite PCFG [Liang+2007]
Nonnegative matrix factorization Probabilistic
context free grammar
Independent component analysis
4
本発表の流れ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
3混合モデル と因子モデル 4階層
入れ子 相関
1アプリケーション 2ベイズとはノンパラベイズとは
5
例 電子透かし [ShterevampDunson2012]
どこに埋め込んだのかは未知
埋め込み箇所未知 埋め込み信号未知 画像中に繰り返し登場
目的 画像動画像からのwatermarking
I V Shterev and D B Dunson (2012) Bayesian watermark attacks ICML
6
例 動画系列群からパターン発見 [HughesampSudderth2012]
目的 動画系列群をbehaviorごとにセグメント分け time
一本の動画
M Hughes and E Sudderth (2012) Nonparametric discovery of active patterns from video collections CVPR
7
例 画像群のパーツ分解+階層的な分類
目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
8
例 音楽のメロディーの予測生成
目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成
[Spiliopoulou amp Storkey2012]
A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML
9
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
ベイズ的なメディア処理の基本的な戦略
10
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
平均共分散
尤度関数
事前分布
ベイズ的なメディア処理の基本的な戦略
11
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
= + 音量
楽器音の 代表スペクトル
1種の楽器音 スペクトログラム
例)音楽信号分解
確率空間 可算集合の場合
12
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
べき集合
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 2: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/2.jpg)
2
56年前であれば
教科書に載っているような各種ツールの ノンパラベイズ化が話題の中心になっていたが
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
3
2006 2012
Infinite HMM [Beal+2002]
HDP-HMM [Teh+2006]
Sticky HDP-HMM [Fox+2007]
Block diagonal iHMM [Stepleton+2009]
Infinite factorial HMM [Van Gael+2008]
Infinite hierarchical HMM [Heller+2008]
Infinite latent event model [Wingate+2009]
Infinite dynamic Bayesian net [Finale+2011]
Hidden Markov model
Combinatorial State space model
Infinite-gram model [Mochihashi amp Sumita2007]
Sequence memoizer [2009以降多数]
N-gram model
IBP NMF [2007以降多数]
Mondrian iHMM [Nakano+2012]
GaP NMF [Hoffman+2010]
Infinite ICA [2007以降多数]
Infinite PCFG [Liang+2007]
Nonnegative matrix factorization Probabilistic
context free grammar
Independent component analysis
4
本発表の流れ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
3混合モデル と因子モデル 4階層
入れ子 相関
1アプリケーション 2ベイズとはノンパラベイズとは
5
例 電子透かし [ShterevampDunson2012]
どこに埋め込んだのかは未知
埋め込み箇所未知 埋め込み信号未知 画像中に繰り返し登場
目的 画像動画像からのwatermarking
I V Shterev and D B Dunson (2012) Bayesian watermark attacks ICML
6
例 動画系列群からパターン発見 [HughesampSudderth2012]
目的 動画系列群をbehaviorごとにセグメント分け time
一本の動画
M Hughes and E Sudderth (2012) Nonparametric discovery of active patterns from video collections CVPR
7
例 画像群のパーツ分解+階層的な分類
目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
8
例 音楽のメロディーの予測生成
目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成
[Spiliopoulou amp Storkey2012]
A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML
9
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
ベイズ的なメディア処理の基本的な戦略
10
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
平均共分散
尤度関数
事前分布
ベイズ的なメディア処理の基本的な戦略
11
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
= + 音量
楽器音の 代表スペクトル
1種の楽器音 スペクトログラム
例)音楽信号分解
確率空間 可算集合の場合
12
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
べき集合
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 3: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/3.jpg)
3
2006 2012
Infinite HMM [Beal+2002]
HDP-HMM [Teh+2006]
Sticky HDP-HMM [Fox+2007]
Block diagonal iHMM [Stepleton+2009]
Infinite factorial HMM [Van Gael+2008]
Infinite hierarchical HMM [Heller+2008]
Infinite latent event model [Wingate+2009]
Infinite dynamic Bayesian net [Finale+2011]
Hidden Markov model
Combinatorial State space model
Infinite-gram model [Mochihashi amp Sumita2007]
Sequence memoizer [2009以降多数]
N-gram model
IBP NMF [2007以降多数]
Mondrian iHMM [Nakano+2012]
GaP NMF [Hoffman+2010]
Infinite ICA [2007以降多数]
Infinite PCFG [Liang+2007]
Nonnegative matrix factorization Probabilistic
context free grammar
Independent component analysis
4
本発表の流れ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
3混合モデル と因子モデル 4階層
入れ子 相関
1アプリケーション 2ベイズとはノンパラベイズとは
5
例 電子透かし [ShterevampDunson2012]
どこに埋め込んだのかは未知
埋め込み箇所未知 埋め込み信号未知 画像中に繰り返し登場
目的 画像動画像からのwatermarking
I V Shterev and D B Dunson (2012) Bayesian watermark attacks ICML
6
例 動画系列群からパターン発見 [HughesampSudderth2012]
目的 動画系列群をbehaviorごとにセグメント分け time
一本の動画
M Hughes and E Sudderth (2012) Nonparametric discovery of active patterns from video collections CVPR
7
例 画像群のパーツ分解+階層的な分類
目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
8
例 音楽のメロディーの予測生成
目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成
[Spiliopoulou amp Storkey2012]
A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML
9
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
ベイズ的なメディア処理の基本的な戦略
10
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
平均共分散
尤度関数
事前分布
ベイズ的なメディア処理の基本的な戦略
11
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
= + 音量
楽器音の 代表スペクトル
1種の楽器音 スペクトログラム
例)音楽信号分解
確率空間 可算集合の場合
12
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
べき集合
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 4: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/4.jpg)
4
本発表の流れ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
3混合モデル と因子モデル 4階層
入れ子 相関
1アプリケーション 2ベイズとはノンパラベイズとは
5
例 電子透かし [ShterevampDunson2012]
どこに埋め込んだのかは未知
埋め込み箇所未知 埋め込み信号未知 画像中に繰り返し登場
目的 画像動画像からのwatermarking
I V Shterev and D B Dunson (2012) Bayesian watermark attacks ICML
6
例 動画系列群からパターン発見 [HughesampSudderth2012]
目的 動画系列群をbehaviorごとにセグメント分け time
一本の動画
M Hughes and E Sudderth (2012) Nonparametric discovery of active patterns from video collections CVPR
7
例 画像群のパーツ分解+階層的な分類
目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
8
例 音楽のメロディーの予測生成
目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成
[Spiliopoulou amp Storkey2012]
A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML
9
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
ベイズ的なメディア処理の基本的な戦略
10
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
平均共分散
尤度関数
事前分布
ベイズ的なメディア処理の基本的な戦略
11
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
= + 音量
楽器音の 代表スペクトル
1種の楽器音 スペクトログラム
例)音楽信号分解
確率空間 可算集合の場合
12
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
べき集合
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 5: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/5.jpg)
5
例 電子透かし [ShterevampDunson2012]
どこに埋め込んだのかは未知
埋め込み箇所未知 埋め込み信号未知 画像中に繰り返し登場
目的 画像動画像からのwatermarking
I V Shterev and D B Dunson (2012) Bayesian watermark attacks ICML
6
例 動画系列群からパターン発見 [HughesampSudderth2012]
目的 動画系列群をbehaviorごとにセグメント分け time
一本の動画
M Hughes and E Sudderth (2012) Nonparametric discovery of active patterns from video collections CVPR
7
例 画像群のパーツ分解+階層的な分類
目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
8
例 音楽のメロディーの予測生成
目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成
[Spiliopoulou amp Storkey2012]
A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML
9
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
ベイズ的なメディア処理の基本的な戦略
10
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
平均共分散
尤度関数
事前分布
ベイズ的なメディア処理の基本的な戦略
11
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
= + 音量
楽器音の 代表スペクトル
1種の楽器音 スペクトログラム
例)音楽信号分解
確率空間 可算集合の場合
12
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
べき集合
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 6: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/6.jpg)
6
例 動画系列群からパターン発見 [HughesampSudderth2012]
目的 動画系列群をbehaviorごとにセグメント分け time
一本の動画
M Hughes and E Sudderth (2012) Nonparametric discovery of active patterns from video collections CVPR
7
例 画像群のパーツ分解+階層的な分類
目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
8
例 音楽のメロディーの予測生成
目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成
[Spiliopoulou amp Storkey2012]
A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML
9
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
ベイズ的なメディア処理の基本的な戦略
10
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
平均共分散
尤度関数
事前分布
ベイズ的なメディア処理の基本的な戦略
11
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
= + 音量
楽器音の 代表スペクトル
1種の楽器音 スペクトログラム
例)音楽信号分解
確率空間 可算集合の場合
12
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
べき集合
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 7: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/7.jpg)
7
例 画像群のパーツ分解+階層的な分類
目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
8
例 音楽のメロディーの予測生成
目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成
[Spiliopoulou amp Storkey2012]
A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML
9
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
ベイズ的なメディア処理の基本的な戦略
10
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
平均共分散
尤度関数
事前分布
ベイズ的なメディア処理の基本的な戦略
11
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
= + 音量
楽器音の 代表スペクトル
1種の楽器音 スペクトログラム
例)音楽信号分解
確率空間 可算集合の場合
12
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
べき集合
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 8: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/8.jpg)
8
例 音楽のメロディーの予測生成
目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成
[Spiliopoulou amp Storkey2012]
A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML
9
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
ベイズ的なメディア処理の基本的な戦略
10
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
平均共分散
尤度関数
事前分布
ベイズ的なメディア処理の基本的な戦略
11
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
= + 音量
楽器音の 代表スペクトル
1種の楽器音 スペクトログラム
例)音楽信号分解
確率空間 可算集合の場合
12
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
べき集合
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 9: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/9.jpg)
9
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
ベイズ的なメディア処理の基本的な戦略
10
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
平均共分散
尤度関数
事前分布
ベイズ的なメディア処理の基本的な戦略
11
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
= + 音量
楽器音の 代表スペクトル
1種の楽器音 スペクトログラム
例)音楽信号分解
確率空間 可算集合の場合
12
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
べき集合
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 10: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/10.jpg)
ベイズ的なメディア処理の基本的な戦略
10
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
平均共分散
尤度関数
事前分布
ベイズ的なメディア処理の基本的な戦略
11
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
= + 音量
楽器音の 代表スペクトル
1種の楽器音 スペクトログラム
例)音楽信号分解
確率空間 可算集合の場合
12
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
べき集合
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 11: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/11.jpg)
ベイズ的なメディア処理の基本的な戦略
11
隠れ変数 N個の観測データ
観測データの確率的生成モデル
を推定
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
= + 音量
楽器音の 代表スペクトル
1種の楽器音 スペクトログラム
例)音楽信号分解
確率空間 可算集合の場合
12
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
べき集合
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 12: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/12.jpg)
確率空間 可算集合の場合
12
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
べき集合
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 13: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/13.jpg)
13
標本空間
「長さ」が測れる
標本空間 標本点
σ加法族 標本空間の部分集合の集合族
確率測度 上の非負値関数
確率空間
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 14: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/14.jpg)
確率変数と確率分布
14
確率空間 確率変数
確率空間
確率分布
「確率変数」とはとる値に対して確率が計算できるもの
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 15: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/15.jpg)
15
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 16: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/16.jpg)
16
混合モデルの設計法
混合モデル
山 森 人
各ラベルごとの パラメータの生成
離散分布の生成
ラベルの割り当て
観測データの生成
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 17: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/17.jpg)
17
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 18: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/18.jpg)
18
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング
番目のGaussian
平均共分散
各ラベルごとのパラメータ
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 19: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/19.jpg)
19
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 20: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/20.jpg)
20
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 21: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/21.jpg)
21
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
離散分布
クラスタ割り当て
データ生成
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 22: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/22.jpg)
22
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 23: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/23.jpg)
23
Dirichlet分布
総和が1となるベクトルを生成するための分布
Dirichlet変数の作り方1
1 Gamma変数を生成
2 それらを総和が1になるよう正規化
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 24: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/24.jpg)
24
ディリクレ分布-離散分布(12)
ラベル割り当て
1 2 3
1 1
1 2 2
2 2 2
3
3
ラベル割当確率
に関して何の事前知識(事前分布)もなければ
1 が何回使われたか
3 5 2 times
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 25: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/25.jpg)
25
ディリクレ分布-離散分布(22)
1 2 3
の事前分布を考えると
1 が何回使われたか
ラベル割当確率
事前分布は各ラベルの使用回数へ下駄を履かせたもの
ラベル割り当て
1 1
1 2 2
2 2 2
3
3
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 26: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/26.jpg)
26
例 3-Gaussian mixture model
課題 平面上の点のクラスタリング 各ラベルごとのパラメータ
多項分布
クラスタ割り当て
データ生成
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 27: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/27.jpg)
27
モデルの複雑度の設定
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 28: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/28.jpg)
28
モデルの複雑度の設定無限モデルの導入
ラベルの重み(総和1) ラベル付随のパラメータ
の可算無限個のペア
膨大なパラメータのうち
観測データを説明するのに必要な分だけが
機能するようにしたい
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 29: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/29.jpg)
29
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 30: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/30.jpg)
30
Dirichlet processesの定義
に従うとき任意の disjoint な の分割 に対して
基底測度
可測空間 の基底測度を 集中度を とする確率測度 が
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 31: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/31.jpg)
31
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 32: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/32.jpg)
32
Dirichlet変数の作り方2 ポリアの壺
[BlackwellampMacqueen1973]
は 番目のラベルに対する事前の「価値」
可測空間 上の測度 に対して
のようなDirichlet変数を作りたい
パラメータへの事前の価値
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 33: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/33.jpg)
33
Dirichlet変数の作り方2 ポリアの壺
0回の試行
[BlackwellampMacqueen1973]
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 34: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/34.jpg)
34
Dirichlet変数の作り方2 ポリアの壺
1つのボールを取り出す
[BlackwellampMacqueen1973]
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 35: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/35.jpg)
35
Dirichlet変数の作り方2 ポリアの壺
取り出したボールと同色のボールを加えて2つを戻す
[BlackwellampMacqueen1973]
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 36: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/36.jpg)
36
Dirichlet変数の作り方2 ポリアの壺
1回の試行
[BlackwellampMacqueen1973]
1
3
1
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 37: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/37.jpg)
37
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
1
3
1 1 2
1
1
3 3
1
3 2
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 38: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/38.jpg)
38
Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 39: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/39.jpg)
39
Dirichlet変数とDirichlet過程
Dirichlet変数
Dirichlet過程
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 40: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/40.jpg)
40
Dirichlet過程が離散(無限のatom)的なのは何故
一般化ポリアの壺 [BlackwellampMacqueen1973]
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 41: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/41.jpg)
41
一般化ポリアの壺
[証明スケッチ]
1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る
3 Mrarrinfinにしたときそれらだけで確率1を占有する
Dirichlet過程が離散(無限のatom)的なのは何故
[BlackwellampMacqueen1973]
nrarrinfin 正規化
[BlackwellampMacqueen1973]
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 42: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/42.jpg)
42
Dirichlet processに関するFAQ
bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか
bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 43: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/43.jpg)
43
Dirichlet過程はコンポーネント数を推定可能か
3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか
[Miller2012]
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 44: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/44.jpg)
44
Dirichlet過程はコンポーネント数を推定可能か
1 密度関数
2 混合
3 コンポーネント数
[Miller2012]
「3」
(観測データ数-gtinfin)
(観測データ数-gtinfin)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 45: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/45.jpg)
45
Dirichlet過程はコンポーネント数を推定可能か
個のデータ
ラベルに分割
例)100個のデータを3クラスタに分割
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 46: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/46.jpg)
46
Dirichlet過程混合モデルの構成法と推論
bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)
bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler
構成法
推論法
[Sethuraman1994]
[RoyampTeh2009]
[Ferguson1973]
[Aldous1981]
[Walker2007]
[Papaspiliopoulos2008]
[多数]
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 47: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/47.jpg)
47
Stick-breaking construction
確率測度 は次のように構成できる
Stick-breaking construction
base measure
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 48: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/48.jpg)
48
Stick-breaking constructionの略証
Stick-breaking construction
無限次元Dirichletに従う
無限次元Dirichletに従う
上手く取り除く
確率変数 が
に従うとき は
補題1
正規化Gamma processを使って書き直すと簡単に確認出来る
[Paisely2008]
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 49: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/49.jpg)
49
Stick-breaking constructionの略証
Stick-breaking construction
Z番目だけ1
確率変数 は
補題2
から作れる
ダミーデータを一個先に作る
ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る
補題1が使える として一般性を失わない
[Paisely2008]
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 50: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/50.jpg)
50
Stick-breaking constructionの略証
確率変数 が
に従うとき は
補題1
Z番目だけ1
確率変数 は
補題2
から作れる
Z番目のatomが自動的に採用される
Beta変数による可算無限回の棒折りでDPMが作れる
[Paisely2008]
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 51: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/51.jpg)
51
メディア処理頻出のツール
主成分分析 独立成分分析
非負値行列分解 隠れマルコフモデル
確率文脈自由文法 n-gram
ダイナミックベイジアンネット
ディープニューラルネット
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 52: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/52.jpg)
Hidden Markov models
52
状態遷移行列
次の状態
隠れ状態
出力
各状態が持つパラメータ
HMM
多項分布
状態遷移確率
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 53: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/53.jpg)
53
隠れ状態
出力
HMM
合計して「1」になる重み
標本空間の離散的なアトム
Dirichlet processを用いた無限混合モデルを用いる
Hierarchical Dirichlet process HMM [Teh+2006]
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 54: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/54.jpg)
54
アトム達を陽に共有させたい
何故 Dirichlet process を階層化する必要があるのか
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 55: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/55.jpg)
55
base measure
アトムを陽に共有化するために Dirichlet processを階層化する
Hierarchical Dirichlet process HMM [Teh+2006]
1層目
2層目
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 56: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/56.jpg)
56
二つの基本的な確率的生成モデル
混合モデル 因子モデル
山 森 人
単一のクラスタがデータを生成
[Torralba+2008]
複数の因子がデータを生成
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 57: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/57.jpg)
57
例 nonnegative matric factorization
時間
周波数
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ +
Bayesian NMF
線形モデル
[Hoffman2010]
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 58: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/58.jpg)
58
モデルの複雑度の設定 無限因子モデル
20 40 60 80 100 120
50
100
150
200
250
300
350
400
450
500
~ + +
潜在的に無限の因子を考えたい
バイナリ(0 or 1) (0 1)の実数 の実数
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 59: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/59.jpg)
59
Levy processの特別な(離散的な)場合 lsquo
0
1
例) Beta process
x x
x x x x x x
Machine learning の文脈でよく登場するのは
1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 60: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/60.jpg)
60
(準備) Poisson process
測度
x x x x x x x x
点の発生回数
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 61: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/61.jpg)
61
Levy processの特別な(離散的な)場合 lsquo
0
1
Beta process のPoisson process
x x
x x x x x x
Levy measure
[Kingman1967]
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 62: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/62.jpg)
62
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
事前知識
[Thibaux amp Jordan2007]
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 63: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/63.jpg)
63
Beta ndash Bernoulli process
ドラム
ベース
ギター
ストリングス
ボーカル
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
オン=1 事前知識
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0
[Thibaux amp Jordan2007]
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 64: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/64.jpg)
64
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
事前知識
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
[Thibaux amp Jordan2007]
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 65: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/65.jpg)
65
Beta ndash Bernoulli process
factor
① factor候補とそれぞれの出現しやすさを表すコインを作る
ドラム ベース
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
[Thibaux amp Jordan2007]
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 66: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/66.jpg)
66
factor
② 各時刻ごとに全コインをふって表の出たものだけオンに
ドラム ベース
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
1
1
0
1
オフ=0 オン=1
基底測度
標本空間
Beta process
factor
重み
集中度
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 67: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/67.jpg)
67
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
Bernoulli process
factor
Binary変数
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 68: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/68.jpg)
68
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
Beta process
factor
重み
集中度
基底測度
標本空間
factor
Beta ndash Bernoulli process [Thibaux amp Jordan2007]
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 69: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/69.jpg)
69
Beta processのLevy measure decomposition
0
1
improper
無限のatom
+ + + 有限のatom
[Ren+2012]
無限和
Beta process
Levy measure
Improper beta の解消
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 70: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/70.jpg)
70
Beta processのLevy measure decomposition
Taylor展開しただけ
Improperではない
[Ren+2012]
+ + + 有限のatom
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 71: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/71.jpg)
71
モデルの拡張法
階層化
2012
Infinite HMM [Beal+2002]
Nested partition model [Rodriguez+2012]
Hierarchical DP [Teh+2006]
Infinite PCFG [Liang+2007]
Infinity-gram [Mochihashi+2007]
入れ子
相関
Nested DP [Rodriguez+2008]
Nested BP [Jordan2009]
Nested GaP [Jordan2009]
Hierarchical BP [Jordan2007]
Nested hierarchical DP [Paisley+2012]
Kernel SBP [Dumson2008]
logistic SBP [Ren+2011]
Kernel BP [Ren+2011]
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 72: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/72.jpg)
Nested Dirichlet process
72
[Rodgiruez+2008]
花
バラ
おおまかなクラスタリング
詳細なクラスタリング
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 73: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/73.jpg)
Nested Dirichlet process
73
[Rodgiruez+2008]
花
バラ
無限混合
次の詳細なクラスタリング 用の手がかり
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 74: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/74.jpg)
Nested Dirichlet process
74
[Rodgiruez+2008]
花
バラ
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 75: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/75.jpg)
75
画像群に対する木構造の分類+パーツ分解
パーツ
因子のオンオフ
[Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 76: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/76.jpg)
76
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 77: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/77.jpg)
77
各画像を木の pathに割り当て
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 78: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/78.jpg)
78
画像群に対する木構造の分類+パーツ分解 [Li+2012]
L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 79: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/79.jpg)
79
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
cluster
factor
factor候補
Cluster と factor を結びつけるために共変量を導入
[Ren+2011] Kernel Beta process
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 80: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/80.jpg)
80
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 81: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/81.jpg)
81
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 82: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/82.jpg)
82
Aメロ Bメロ サビ
ドラム ドラム ドラム
ベース
ボーカル
ベース
ギター
ボーカル
ベース
ギター
ストリングス
ボーカル
共変量スペース
各factorが持つ共変量
各factorが共変量スペースの局所的な計量を決めるパラメータ
Cluster 共変量
Cluster共変量に 近いfactorがactiveになりやすいように
Kernel Beta process [Ren+2011]
Cluster と factor を結びつけるために共変量を導入
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 83: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/83.jpg)
83
intro A B A B
g
np vp
noun
noun
np verb
noun
np
swat flies like ants
音楽信号からの構文解析
音楽 自然言語
[Nakano+2011 Kameoka+2012]
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 84: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/84.jpg)
84
音楽の構造には「時間」の情報が重要な役割を果たす
time
時間分割の分岐規則
同期の分岐規則
Realistic productions
Unrealistic productions
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 85: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/85.jpg)
85
シンボルの木構造に対する確率分布を作りたい
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 86: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/86.jpg)
86
左の子
親rdquo1rdquoから子(i j)が生成される確率 1
右の子
左の子
親rdquo2rdquoから子(i j)が生成される確率 2
右の子
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
シンボル 候補
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 87: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/87.jpg)
87
i
j
親kから子(i j)が生成される確率
シンボル候補と その出現しやすさ
シンボル2つ組の出現しやすさ
従来のinfinite PCFG
音長
シンボル候補
提案モデル
親子間で音長を保存するよう働くバイアス
音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 88: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/88.jpg)
88
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 89: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/89.jpg)
89
F
G
F G C
Dm
Am
C
F
G
F G C
Dm
Am E7 Gdim
動機 コード進行2-gram表からブロックを見つけたい
ブルース ポップス
C
「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 90: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/90.jpg)
目的 状態遷移行列内のブロックの発見
90
複数の楽曲に隠れマルコフモデルを適用する際に
状態遷移行列 (遷移確率)
楽曲1 楽曲2 楽曲3 楽曲4
楽曲5 楽曲6 楽曲7 楽曲8
楽曲9 楽曲10 楽曲11 楽曲12
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 91: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/91.jpg)
91
状態の並び順を上手く誘導しつつ
目的 状態遷移行列内のブロックの発見
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 92: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/92.jpg)
92
状態遷移配列の中に潜むブロックを見つけたい
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
目的 状態遷移行列内のブロックの発見
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 93: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/93.jpg)
93
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
Unit squareへのパーティションの生成
隠れ状態に関する縦横の並び順の生成
オンオフを表すバイナリ変数の生成
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 94: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/94.jpg)
94
Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
1 234 567 89101112
123456789101112
12 3456 789101112
123456789101112
1 234 567 89101112
123456789101112
1 2 3 4 5 6 7 8 9 10 11 12
1
2
3
4
5
6
7
8
9
10
11
12
隠れ状態2-gram表に潜むブロック
楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率
無限混合のためのTop-level Dirichlet process
無限HMMのためのsecond-level Dirichlet process
各遷移のオンオフに基づく重みの修正
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 95: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/95.jpg)
Guillotine partitions
95
[Gonzales amp Zheng1989]
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 96: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/96.jpg)
Mondrian process
96
Guillotine partitionsを与える確率過程
[Roy amp Teh2009]
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 97: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/97.jpg)
Mondrian process
97
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 98: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/98.jpg)
Mondrian process
98
レートカーネル
現在のパーティション
カットの起こりやすさ
[Roy 2011]
Guillotine partitions の発展を表現したマルコフ過程
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 99: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/99.jpg)
Mondrian process
99
レートカーネル
現在のパーティション
次のpartitionを作る一様分布
次のパーティション
から作れる Guillotine partitions
Guillotine partitions の発展を表現したマルコフ過程
[Roy 2011]
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 100: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/100.jpg)
Mondrian process
100
[Roy 2011]
離散時間マルコフ過程
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 101: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/101.jpg)
Mondrian process の構成法
101
各ブロックが独立なMondrian processに従うと見なせる
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 102: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/102.jpg)
Mondrian process の構成法
102
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
次のカットまでの時間
+ +
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 103: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/103.jpg)
Mondrian process の構成法
103
白ブロック待ち時間
緑ブロック待ち時間
青ブロック待ち時間
独立な指数分布変数
を考えた時
Poisson splitting
が成り立つ
次のカットまでの時間
+ +
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 104: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/104.jpg)
104
例 ニュースヘッドラインの生成 [Affandi+2012]
time 目的 日々のニュースヘッドラインの推定
多様な見出し
多様な見出し
R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 105: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/105.jpg)
105
まとめ
既存ツールのノンパラベイズ化
モデルの拡張法
2002 2012
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 106: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/106.jpg)
106
参考文献
bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video
collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical
Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of
Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-
650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the
number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables
Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in
Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo
methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 107: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/107.jpg)
107
参考文献
bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012
bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967
bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009
bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010
bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007
bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009
bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 108: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/108.jpg)
108
参考文献
bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009
bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011
bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006
bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002
bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003
bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007
bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012
bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011
![Page 109: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション](https://reader034.vdocuments.net/reader034/viewer/2022042409/5f26be790c16427c704f5191/html5/thumbnails/109.jpg)
109
参考文献
bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007
bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009
bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008
bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009
bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011
bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011