holonomic gradient descent
DESCRIPTION
Holonomic Gradient DescentTRANSCRIPT
ホロノミック勾配法
株式会社デンソーアイティーラボラトリ
坂倉義明@a2ki
DENSO IT Laboratory, INC. 1/26
はじめに
• 原著
– Holonomic gradient descent and its application to the Fisher–Bingham integral– Advances in Applied Mathematics 47.3 (2011): 639‐658.
• 微分が陽に書けない関数の最適化
– 目的関数に対する勾配法が満たす微分方程式を導出
– 微分方程式の初期値設定時のみ微分の数値計算
• 統計学の世界から出てきた
– 正規化定数が陽に書けない分布の最尤(and ベイズ?)推定
• グレブナー基底CREST(日比先生)の成果の1つ– 東大:竹村先生グループ
DENSO IT Laboratory, INC. 2/26
背景
• 最適化問題
• 勾配法による解法: Netwon法の例
更新即
終了条件
として
DENSO IT Laboratory, INC. 3/26
背景
• 更新即(再掲)
• ∂g(θ), ∂2g(θ)が陽にかける場合→OK
• 陽に書けない場合→毎STEP導関数を数値計算
– 特に統計で出てくる問題
– の場合、導関数評価の為に、Z(θ)の数値積分が必要(大変)
DENSO IT Laboratory, INC. 4/26
ホロノミック勾配法
• ∂g(θ), ∂2g(θ)が陽にかけない場合の勾配法
• 勾配法の初期値設定時のみ、数値微分(のための積分)すればよい
• あとは勾配法に従うだけ
DENSO IT Laboratory, INC. 5/26
アウトライン
• ホロノミック勾配法概要
• 適用事例
• 考察
DENSO IT Laboratory, INC. 6/26
基本戦略
• θの更新即に加え、θの更新に伴う∂g, ∂2gの更新即を導入
– 現ステップの∂g(θ0), ∂2g(θ0)から次ステップの∂g(θ1), ∂2g(θ1)を計算
θ
g(θ0)
g(θ1)
g(θ)
θ0 θ1
θの更新即
∂g, ∂2gの更新即
ホロノミック勾配法をNewton法に適用したイメージ
DENSO IT Laboratory, INC. 7/26
Naiveな方法:最急降下法の例
• 最急降下法における∂gの更新即
• g(θ1)はg(θ0)を使って以下のようにかける
• ∂g(θ1)は∂g(θ0)、∂2g(θ0)を使って、以下のようにかける
• これでOK!• ではなく、次のステップ:∂g(θ1)から∂g(θ2)を計算するため、∂3g(θ0)の値も必要
• 同様にして、芋づる式に無限に高階の導関数が必要となる
DENSO IT Laboratory, INC. 8/26
無限を止める方法
• 高階の導関数が、それより低階の導関数で記述できればよい
…
DENSO IT Laboratory, INC. 9/26
(定式化1) 先頁の低階導関数表現を仮定
• k=0,...,r階の導関数∂kg(θ)が、有理関数ak(θ)で零化される
– AR(r)のイメージ
– 実際にはグレブナー基底の理論を用いて導出(今回は割愛)
– g(θ) : Holonomic関数 r : Holonomic Rank
DENSO IT Laboratory, INC. 10/26
(定式化2) 1階微分方程式:Pfaffian Systemに変換
• とおき、1階の微分方程式で表現
– AR(r) の状態空間モデルのイメージ
– 本微分方程式:Pfaffian System, A(θ) : Pfaffian
×=
g∂g
∂r‐1g
∂g∂2g
∂rg
A(θ) G∂G
DENSO IT Laboratory, INC. 11/26
(定式化3) 勾配法を微分方程式で表現
• 更新幅 ε→0 とすると、Newton法が満たす微分方程式は
– ただし、 は更新時刻
– この微分方程式を解いて、∂g(θ)≒0で止めれば勾配法
• ここで、以下のように定義しておく
– ※ fの形を変えれば、他の勾配法もこの形でかける
DENSO IT Laboratory, INC. 12/26
(定式化4) g(θ)更新を含む勾配法の微分方程式表現
• dG/dτ(τ:更新時刻)に関する有限の数の微分方程式系を追加
– ※ “無限を止める方法”頁の更新即の導入
θの更新
g(θ)の更新
DENSO IT Laboratory, INC. 13/26
(定式化5) dθ/dτをPfaffian Systemを用いて記述
• Pfaffian A(θ)の1・2行目をそれぞれ A1(θ)、A2(θ)と置く
• Pfaffian Systemの定義より
×=
g∂g
∂r‐1g
∂g∂2g
∂rg
A(θ) G∂GA1(θ)A2(θ)
DENSO IT Laboratory, INC. 14/26
(定式化6) dG/dτをPfaffian Systemを用いて記述
• dG/dτをChain Ruleで砕いて、前頁の結果とPfaffian Systemの定義を突っ込む
: 前頁の結果
: Chain Rule
: Pfaffian Systemの定義
DENSO IT Laboratory, INC. 15/26
以上、まとめると
1. 最適化問題 に対し、以下を定義する
– 勾配法の更新式 :– Pfaffian Systen :
1. 適当な初期値 をもって、以下の微分方程式を解く (e.g.ルンゲ・クッタ)
2. で終了
DENSO IT Laboratory, INC. 16/26
Pfaffian Systemが自明な問題での計算例
• 問題
• より、Pfaffian Systemで記述される1階微分方程式は
• 先の公式に当てはめると、ホロノミック勾配法の微分法方程式は、Newton法の場合
• 初期値:例えば などとして上記微分方程式を解く
DENSO IT Laboratory, INC. 17/26
アウトライン
• ホロノミック勾配法概要
• 適用事例
• 考察
DENSO IT Laboratory, INC. 18/26
適用事例
• :回転群上のFisher分布族の最尤推定
• :球面上のFisher Bingham分布族の最尤推定
• が第一象限に値をとる確率(象限確率)
DENSO IT Laboratory, INC.
http://en.wikipedia.org/wiki/Kent_distribution
[8]より抜粋
19/26
アウトライン
• ホロノミック勾配法概要
• 適用事例
• 考察
DENSO IT Laboratory, INC. 20/26
適用に有利な事実(1/2)
• 適用可能な問題のクラスが広い(Pfaffianの存在証明 : Holonomic関数)
– 指数分布族全体
– ヘビサイド関数: H(多項式)– 行列式 : |行列多項式| – etc...– Holonomic関数の和、積、積分もHolonomic関数
• Bayes推定、Mixtureモデル
有理式なら何でもOK
DENSO IT Laboratory, INC. 21/26
適用に有利な事実(2/2)
• 職人芸が少ない
– Pfaffianが見つかれば、あとは微分方程式計算
– v.s. MCMC
• 理論・実装両面でツール群が充実
– 式を見ただけで、Pfaffianの存在が解る
– 式を見ただけで、Pfaffianの形が解る
– Pfaffianを導出するアルゴリズムがある
– Pfaffianを導出する高速ライブラリがある
DENSO IT Laboratory, INC. 22/26
適用の明暗を分ける項目
• Holonomic Rank:Pfaffianの次数
– 計算量に直結
– e.g.• Fisher Bingham 分布族(Sn‐1球面): 2n + 2 • 象限確率 : 2d
DENSO IT Laboratory, INC. 23/26
まとめと所感
• まとめ
– ホロノミック勾配法を紹介
• g(θ)が満たす微分方程式を用いて勾配法を構成
• g(θ)の数値微分が初回だけでよい
• 適用可能な問題のクラスが広い
• 所見
– (統計的)機械学習分野としてやるべきこと
• これまでMCMCや変分法で実施してきたパラメータ推定問題を解きなおす
DENSO IT Laboratory, INC. 24/26
参考文献
• [1]Nakayama, Hiromasa, et al. "Holonomic gradient descent and its application to the Fisher–Bingham integral." Advances in Applied Mathematics 47.3 (2011): 639‐658.
• [2]Koyama, Tamio, et al. "Holonomic gradient descent for the Fisher–Bingham distribution on the d‐dimensional sphere." Computational Statistics 29.3‐4 (2014): 661‐683.
• [3]Hashiguchi, Hiroki, et al. "The holonomic gradient method for the distribution function of the largest root of a Wishart matrix." Journal of Multivariate Analysis117 (2013): 296‐312.
• [4]Sei, Tomonari, et al. "Properties and applications of Fisher distribution on the rotation group." Journal of Multivariate Analysis 116 (2013): 440‐455.
• [5]JST CREST 日比チーム,グレブナー道場,共立出版 (2011)
• [6]小山民雄,竹村彰通,ホロノミック勾配法による象限確率の計算,http://park.itc.u‐tokyo.ac.jp/atstat/CREST/120601‐tokyo/slide/120601‐koyama‐slide.pdf(スライド)
• [7]清智也ら,ホロノミック勾配法によるFisher‐Bingham 分布族の最尤推定, http://park.itc.u‐tokyo.ac.jp/atstat/kakenhi/1115.16shukai/sei.pdf(スライド)
DENSO IT Laboratory, INC. 25/26
参考文献
• [8]清智也ら,回転群上のフィッシャー分布に対するホロノミック勾配法, http://park.itc.u‐tokyo.ac.jp/atstat/kakenhi/120120tsukuba/sei.pdf(スライド)
• [9]橋口ら,ウィシャート分布に現れる行列変数の超幾何関数に対するホロノミック勾配法,http://park.itc.u‐tokyo.ac.jp/atstat/takemura‐talks/120121‐takemura‐slide.pdf(スライド)
• [10]橋口ら,Wishart行列の最大固有値の分布関数のホロノミック勾配法による計算,http://durian2.math.kobe‐u.ac.jp/Movies/oxvh/2012‐09‐10‐wishart/2012‐09‐19‐wishart.pdf(スライド)
DENSO IT Laboratory, INC. 26/26