holonomic gradient descent

26
ホロノミック勾配法 株式会社デンソーアイティーラボラトリ 坂倉義明 @a2ki DENSO IT Laboratory, INC. 1/26

Upload: yoshiaki-sakakura

Post on 12-Jun-2015

3.067 views

Category:

Science


0 download

DESCRIPTION

Holonomic Gradient Descent

TRANSCRIPT

Page 1: Holonomic Gradient Descent

ホロノミック勾配法

株式会社デンソーアイティーラボラトリ

坂倉義明@a2ki

DENSO IT Laboratory, INC. 1/26

Page 2: Holonomic Gradient Descent

はじめに

• 原著

– Holonomic gradient descent and its application to the Fisher–Bingham integral– Advances in Applied Mathematics 47.3 (2011): 639‐658.

• 微分が陽に書けない関数の最適化

– 目的関数に対する勾配法が満たす微分方程式を導出

– 微分方程式の初期値設定時のみ微分の数値計算

• 統計学の世界から出てきた

– 正規化定数が陽に書けない分布の最尤(and ベイズ?)推定

• グレブナー基底CREST(日比先生)の成果の1つ– 東大:竹村先生グループ

DENSO IT Laboratory, INC. 2/26

Page 3: Holonomic Gradient Descent

背景

• 最適化問題

• 勾配法による解法: Netwon法の例

更新即

終了条件

として

DENSO IT Laboratory, INC. 3/26

Page 4: Holonomic Gradient Descent

背景

• 更新即(再掲)

• ∂g(θ), ∂2g(θ)が陽にかける場合→OK

• 陽に書けない場合→毎STEP導関数を数値計算

– 特に統計で出てくる問題

– の場合、導関数評価の為に、Z(θ)の数値積分が必要(大変)

DENSO IT Laboratory, INC. 4/26

Page 5: Holonomic Gradient Descent

ホロノミック勾配法

• ∂g(θ), ∂2g(θ)が陽にかけない場合の勾配法

• 勾配法の初期値設定時のみ、数値微分(のための積分)すればよい

• あとは勾配法に従うだけ

DENSO IT Laboratory, INC. 5/26

Page 6: Holonomic Gradient Descent

アウトライン

• ホロノミック勾配法概要

• 適用事例

• 考察

DENSO IT Laboratory, INC. 6/26

Page 7: Holonomic Gradient Descent

基本戦略

• θの更新即に加え、θの更新に伴う∂g, ∂2gの更新即を導入

– 現ステップの∂g(θ0), ∂2g(θ0)から次ステップの∂g(θ1), ∂2g(θ1)を計算

θ

g(θ0)

g(θ1)

g(θ)

θ0 θ1

θの更新即

∂g, ∂2gの更新即

ホロノミック勾配法をNewton法に適用したイメージ

DENSO IT Laboratory, INC. 7/26

Page 8: Holonomic Gradient Descent

Naiveな方法:最急降下法の例

• 最急降下法における∂gの更新即

• g(θ1)はg(θ0)を使って以下のようにかける

• ∂g(θ1)は∂g(θ0)、∂2g(θ0)を使って、以下のようにかける

• これでOK!• ではなく、次のステップ:∂g(θ1)から∂g(θ2)を計算するため、∂3g(θ0)の値も必要

• 同様にして、芋づる式に無限に高階の導関数が必要となる

DENSO IT Laboratory, INC. 8/26

Page 9: Holonomic Gradient Descent

無限を止める方法

• 高階の導関数が、それより低階の導関数で記述できればよい

DENSO IT Laboratory, INC. 9/26

Page 10: Holonomic Gradient Descent

(定式化1) 先頁の低階導関数表現を仮定

• k=0,...,r階の導関数∂kg(θ)が、有理関数ak(θ)で零化される

– AR(r)のイメージ

– 実際にはグレブナー基底の理論を用いて導出(今回は割愛)

– g(θ) : Holonomic関数 r : Holonomic Rank

DENSO IT Laboratory, INC. 10/26

Page 11: Holonomic Gradient Descent

(定式化2) 1階微分方程式:Pfaffian Systemに変換

• とおき、1階の微分方程式で表現

– AR(r) の状態空間モデルのイメージ

– 本微分方程式:Pfaffian System, A(θ) : Pfaffian

×=

g∂g

∂r‐1g

∂g∂2g

∂rg

A(θ) G∂G

DENSO IT Laboratory, INC. 11/26

Page 12: Holonomic Gradient Descent

(定式化3) 勾配法を微分方程式で表現

• 更新幅 ε→0 とすると、Newton法が満たす微分方程式は

– ただし、 は更新時刻

– この微分方程式を解いて、∂g(θ)≒0で止めれば勾配法

• ここで、以下のように定義しておく

– ※ fの形を変えれば、他の勾配法もこの形でかける

DENSO IT Laboratory, INC. 12/26

Page 13: Holonomic Gradient Descent

(定式化4) g(θ)更新を含む勾配法の微分方程式表現

• dG/dτ(τ:更新時刻)に関する有限の数の微分方程式系を追加

– ※ “無限を止める方法”頁の更新即の導入

θの更新

g(θ)の更新

DENSO IT Laboratory, INC. 13/26

Page 14: Holonomic Gradient Descent

(定式化5) dθ/dτをPfaffian Systemを用いて記述

• Pfaffian A(θ)の1・2行目をそれぞれ A1(θ)、A2(θ)と置く

• Pfaffian Systemの定義より

×=

g∂g

∂r‐1g

∂g∂2g

∂rg

A(θ) G∂GA1(θ)A2(θ)

DENSO IT Laboratory, INC. 14/26

Page 15: Holonomic Gradient Descent

(定式化6) dG/dτをPfaffian Systemを用いて記述

• dG/dτをChain Ruleで砕いて、前頁の結果とPfaffian Systemの定義を突っ込む

: 前頁の結果

: Chain Rule

: Pfaffian Systemの定義

DENSO IT Laboratory, INC. 15/26

Page 16: Holonomic Gradient Descent

以上、まとめると

1. 最適化問題 に対し、以下を定義する

– 勾配法の更新式 :– Pfaffian Systen : 

1. 適当な初期値 をもって、以下の微分方程式を解く (e.g.ルンゲ・クッタ)

2. で終了

DENSO IT Laboratory, INC. 16/26

Page 17: Holonomic Gradient Descent

Pfaffian Systemが自明な問題での計算例

• 問題

• より、Pfaffian Systemで記述される1階微分方程式は

• 先の公式に当てはめると、ホロノミック勾配法の微分法方程式は、Newton法の場合

• 初期値:例えば などとして上記微分方程式を解く

DENSO IT Laboratory, INC. 17/26

Page 18: Holonomic Gradient Descent

アウトライン

• ホロノミック勾配法概要

• 適用事例

• 考察

DENSO IT Laboratory, INC. 18/26

Page 19: Holonomic Gradient Descent

適用事例

• :回転群上のFisher分布族の最尤推定

• :球面上のFisher Bingham分布族の最尤推定

• が第一象限に値をとる確率(象限確率)

DENSO IT Laboratory, INC.

http://en.wikipedia.org/wiki/Kent_distribution

[8]より抜粋

19/26

Page 20: Holonomic Gradient Descent

アウトライン

• ホロノミック勾配法概要

• 適用事例

• 考察

DENSO IT Laboratory, INC. 20/26

Page 21: Holonomic Gradient Descent

適用に有利な事実(1/2)

• 適用可能な問題のクラスが広い(Pfaffianの存在証明 : Holonomic関数)

– 指数分布族全体

– ヘビサイド関数: H(多項式)– 行列式 : |行列多項式| – etc...– Holonomic関数の和、積、積分もHolonomic関数

• Bayes推定、Mixtureモデル

有理式なら何でもOK

DENSO IT Laboratory, INC. 21/26

Page 22: Holonomic Gradient Descent

適用に有利な事実(2/2)

• 職人芸が少ない

– Pfaffianが見つかれば、あとは微分方程式計算

– v.s. MCMC

• 理論・実装両面でツール群が充実

– 式を見ただけで、Pfaffianの存在が解る

– 式を見ただけで、Pfaffianの形が解る

– Pfaffianを導出するアルゴリズムがある

– Pfaffianを導出する高速ライブラリがある

DENSO IT Laboratory, INC. 22/26

Page 23: Holonomic Gradient Descent

適用の明暗を分ける項目

• Holonomic Rank:Pfaffianの次数

– 計算量に直結

– e.g.• Fisher Bingham 分布族(Sn‐1球面): 2n + 2 • 象限確率 : 2d

DENSO IT Laboratory, INC. 23/26

Page 24: Holonomic Gradient Descent

まとめと所感

• まとめ

– ホロノミック勾配法を紹介

• g(θ)が満たす微分方程式を用いて勾配法を構成

• g(θ)の数値微分が初回だけでよい

• 適用可能な問題のクラスが広い

• 所見

– (統計的)機械学習分野としてやるべきこと

• これまでMCMCや変分法で実施してきたパラメータ推定問題を解きなおす

DENSO IT Laboratory, INC. 24/26

Page 25: Holonomic Gradient Descent

参考文献

• [1]Nakayama, Hiromasa, et al. "Holonomic gradient descent and its application to the Fisher–Bingham integral." Advances in Applied Mathematics 47.3 (2011): 639‐658.

• [2]Koyama, Tamio, et al. "Holonomic gradient descent for the Fisher–Bingham distribution on the d‐dimensional sphere." Computational Statistics 29.3‐4 (2014): 661‐683.

• [3]Hashiguchi, Hiroki, et al. "The holonomic gradient method for the distribution function of the largest root of a Wishart matrix." Journal of Multivariate Analysis117 (2013): 296‐312.

• [4]Sei, Tomonari, et al. "Properties and applications of Fisher distribution on the rotation group." Journal of Multivariate Analysis 116 (2013): 440‐455.

• [5]JST CREST 日比チーム,グレブナー道場,共立出版 (2011)

• [6]小山民雄,竹村彰通,ホロノミック勾配法による象限確率の計算,http://park.itc.u‐tokyo.ac.jp/atstat/CREST/120601‐tokyo/slide/120601‐koyama‐slide.pdf(スライド)

• [7]清智也ら,ホロノミック勾配法によるFisher‐Bingham 分布族の最尤推定, http://park.itc.u‐tokyo.ac.jp/atstat/kakenhi/1115.16shukai/sei.pdf(スライド)

DENSO IT Laboratory, INC. 25/26

Page 26: Holonomic Gradient Descent

参考文献

• [8]清智也ら,回転群上のフィッシャー分布に対するホロノミック勾配法, http://park.itc.u‐tokyo.ac.jp/atstat/kakenhi/120120tsukuba/sei.pdf(スライド)

• [9]橋口ら,ウィシャート分布に現れる行列変数の超幾何関数に対するホロノミック勾配法,http://park.itc.u‐tokyo.ac.jp/atstat/takemura‐talks/120121‐takemura‐slide.pdf(スライド)

• [10]橋口ら,Wishart行列の最大固有値の分布関数のホロノミック勾配法による計算,http://durian2.math.kobe‐u.ac.jp/Movies/oxvh/2012‐09‐10‐wishart/2012‐09‐19‐wishart.pdf(スライド)

DENSO IT Laboratory, INC. 26/26