修士論文 ベイジアンネットワークにおける 近似推論についての … ·...

63
修士論文 ベイジアンネットワークにおける 近似推論についての特性分析 電気通信大学大学院 情報システム学研究科 社会知能情報学専攻 知識創産システム学講座 学籍番号 1151018 氏名 小竹 遼弥 主任指導教員 植野 真臣 准教授 指導教員 田中 健次 教授 岡本 敏雄 教授 2013 2 22 () 提出

Upload: others

Post on 08-Mar-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

修士論文

ベイジアンネットワークにおける近似推論についての特性分析

電気通信大学大学院 情報システム学研究科社会知能情報学専攻知識創産システム学講座

学籍番号 1151018

氏名 小竹 遼弥

主任指導教員植野 真臣 准教授

指導教員田中 健次 教授岡本 敏雄 教授

2013 年 2 月 22 日 (金) 提出

目 次

第 1章 はじめに 1

第 2章 ベイジアンネットワーク 3

2.1 ベイジアンネットワーク・モデル . . . . . . . . . . . . . . . . . . . . 3

2.2 ベイジアンネットワークの実際の表現と推論 . . . . . . . . . . . . . . 3

第 3章 ジョインツリー・アルゴリズム 5

第 4章 ベイジアンネットワークの近似推論 7

4.1 ポリツリー・アルゴリズム . . . . . . . . . . . . . . . . . . . . . . . . 7

4.2 ルーピー・ビリーフ・プロパゲーション . . . . . . . . . . . . . . . . 9

4.3 カルバック・ライブラー・ダイバージェンスによる評価 . . . . . . . . 12

第 5章 エッジ削除アルゴリズム 13

5.1 緩和 (Relax) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

5.2 再生 (Recover) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.3 エッジ削除アルゴリズムの問題点 . . . . . . . . . . . . . . . . . . . . 20

第 6章 エッジ削除アルゴリズムの推論における構造の特性分析 21

6.1 実験 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

6.2 推論結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

6.3 推論結果からの分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6.4 実験 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6.5 推論結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

1

第 7章 再生基準の提案 45

7.1 相互情報量に基づく再生とその問題 . . . . . . . . . . . . . . . . . . . 45

7.2 提案手法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

7.3 実験 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

第 8章 まとめ 51

第 9章 今後の課題 52

第 10章 謝辞 53

2

図 目 次

2.1 ベイジアンネットワークのCPT . . . . . . . . . . . . . . . . . . . . . 4

4.1 ポリツリー・アルゴリズムによるメッセージ・パッシング . . . . . . 8

4.2 ルーピー・ビリーフ・プロパゲーションの動作例 . . . . . . . . . . . 10

5.1 二変数の等価制約を持つベイジアンネットワークの緩和 . . . . . . . . 14

5.2 一般的なループ構造の緩和 . . . . . . . . . . . . . . . . . . . . . . . . 15

5.3 ベイジアン・ネットワークの緩和 . . . . . . . . . . . . . . . . . . . . 16

6.1 ネットワーク 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

6.2 ネットワーク 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

6.3 ネットワーク 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

6.4 ネットワーク 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

6.5 ネットワーク 1(削除エッジ数:1) . . . . . . . . . . . . . . . . . . . . 36

6.6 ネットワーク 2(削除エッジの数:2) . . . . . . . . . . . . . . . . . . . . 37

6.7 ネットワーク 2(削除エッジの数:1) . . . . . . . . . . . . . . . . . . . . 37

6.8 ネットワーク 3(削除エッジの数:1) . . . . . . . . . . . . . . . . . . . . 38

6.9 ネットワーク 4(削除エッジの数:2) . . . . . . . . . . . . . . . . . . . . 39

6.10 ネットワーク 4(削除エッジの数:1) . . . . . . . . . . . . . . . . . . . . 39

6.11 ネットワーク 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

6.12 BGNHのループを持つ構造 (削除エッジ {BC,BF,DJ,EK,LQ} ) . . . 42

6.13 BGNHのループを持つ構造 (削除エッジ {BD,FK,LQ,GJ,GL} ) . . . 42

3

7.1 ネットワーク5(削除エッジ{BC,BF,BH,DJ,EK,LQ},エビデンス A=0,

I=1, K=0, S=1)における各手法の精度の比較 . . . . . . . . . . . . . 49

7.2 ネットワーク5(削除エッジ{BC,BF,BH,DJ,EK,LQ},エビデンス P=1,

Q=1, R=1, S=1, T=1)における各手法の精度の比較 . . . . . . . . . 50

4

表 目 次

6.1 ネットワーク 1

(エビデンスなし,削除エッジ数:2) . . . . . . . . . . . . . . . . . . . 25

6.2 ネットワーク 1

(エビデンスなし) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

6.3 ネットワーク 1

(エビデンス C=1,削除エッジ数:2) . . . . . . . . . . . . . . . . . . . 26

6.4 ネットワーク 1

(エビデンス C=1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

6.5 ネットワーク 1(エビデンスなし,削除エッジ数:1) . . . . . . . . . . . 26

6.6 ネットワーク 1(エビデンス C=1,削除エッジ数:1) . . . . . . . . . . 26

6.7 ネットワーク 2

(エビデンスなし,削除エッジ数:3) . . . . . . . . . . . . . . . . . . . 27

6.8 ネットワーク 2

(エビデンスなし) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6.9 ネットワーク 2

(エビデンス D=1,削除エッジ数:3) . . . . . . . . . . . . . . . . . . . 28

6.10 ネットワーク 2

(エビデンス D=1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6.11 ネットワーク 2(エビデンスなし,削除エッジ数:2) . . . . . . . . . . . 28

6.12 ネットワーク 2(エビデンス D=1,削除エッジ数:2) . . . . . . . . . . 28

6.13 ネットワーク 2(エビデンスなし,削除エッジ数:1) . . . . . . . . . . . 29

6.14 ネットワーク 2(エビデンス D=1,削除エッジ数:1) . . . . . . . . . . 29

5

6.15 ネットワーク 3

(エビデンスなし,削除エッジ数:2) . . . . . . . . . . . . . . . . . . . 30

6.16 ネットワーク 3

(エビデンスなし) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6.17 ネットワーク 3

(エビデンス D=0,削除エッジ数:2) . . . . . . . . . . . . . . . . . . . 30

6.18 ネットワーク 3

(エビデンス D=0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6.19 ネットワーク 3(エビデンスなし,削除エッジ数:1) . . . . . . . . . . . 31

6.20 ネットワーク 3(エビデンス D=0,削除エッジ数:1) . . . . . . . . . . 31

6.21 ネットワーク 4

(エビデンスなし,削除エッジ数:3) . . . . . . . . . . . . . . . . . . . 32

6.22 ネットワーク 4

(エビデンス なし) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

6.23 ネットワーク 4

(エビデンス F=0,削除エッジ数 3) . . . . . . . . . . . . . . . . . . . 33

6.24 ネットワーク 4

(エビデンス F=0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

6.25 ネットワーク 4(エビデンスなし,削除エッジ数:2) . . . . . . . . . . . 33

6.26 ネットワーク 4(エビデンス F=0,削除エッジ数:2) . . . . . . . . . . . 33

6.27 ネットワーク 4(エビデンスなし,削除エッジ数:1) . . . . . . . . . . . 34

6.28 ネットワーク 4(エビデンス F=0,削除エッジ数:1) . . . . . . . . . . . 34

6.29 ネットワーク 5

(エビデンス P=1,Q=1,R=1,S=1,T=1,

削除エッジ数:5) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

6

6.30 ネットワーク 5

(エビデンス P=1,Q=1,R=1,S=1,T=1,

削除エッジ数:5) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

6.31 ネットワーク 5

(エビデンス A=0,I=0,

削除エッジ数:5) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6.32 ネットワーク 5

(エビデンス A=0,I=0,

削除エッジ数:5) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

7.1 再生過程における相互情報量 . . . . . . . . . . . . . . . . . . . . . . 46

7.2 最大ポリツリー構造 (削除エッジ {AC,CE,EG} )で考えられる全再生

過程における精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

7

第1章 はじめに

ベイジアンネットワークは,不確実性を有する複数の事象間の確率的依存関係を

表現可能なグラフィカルモデルの一つとして知られ,ネットワークの構造学習や,

結合構造を利用した確率推論法に関する多くの理論研究が進められている.例えば,

意思決定支援システムや故障の診断等,多様な分野への応用例が数多く報告されて

いる.しかし,計算性能の向上,および問題領域の拡大や複雑化に伴って,大規模

かつ複雑なネットワークを取り扱う事例が増えるとともに,より高速で精度の良い

確率推論の実現が重要となってきている.

ベイジアンネットワーク上での確率推論法として有名なものの一つにポリツリー・

アルゴリズム (polytree algorithm)[1]があげられる.ポリツリー・アルゴリズムは単

結合ネットワーク上で厳密な確率推論を行う手法である.確率伝播は局所的なメッ

セージの交換および処理を行うことで大域的な確率推論を効率的に行うことができ

る.ポリツリー・アルゴリズムを複結合ネットワークに適用した手法としてルーピー・

ビリーフ・プロパゲーション (Loopy Belief Propagation)[2][3]がある.ルーピー・ビ

リーフ・プロパゲーションは,ベイジアンネットワークへポリツリー・アルゴリズ

ムを繰り返し適用することで近似解を得る手法であり,高速で比較的精度の良い近

似解が獲得できる.しかし,結合構造の複雑化に伴う近似解の精度の低下と収束性

に問題がある.また,複結合ネットワークで厳密な推論を行うことができる確率推

論法で有名なものとしてジョインツリー・アルゴリズム (Jointree algorithm)[4]があ

る.しかし,ジョインツリー・アルゴリズムは複雑な構造を持つベイジアンネット

ワークでは,計算量が指数関数的に増加するという問題があり,大規模なベイジア

ンネットワークでの確率推論は現実的ではない.

これらを解決するために ChoiとDarwicheがエッジ削除アルゴリズム [5][6]を提

8

案した.エッジ削除アルゴリズムはエッジを削除することにより複結合ネットワー

クを単結合の近似ネットワークに緩和し,相互情報量に基づくエッジの再生を繰り

返して確率推論を行うことで精度を高めた近似推論法である.しかし,エッジ削除

アルゴリズムを開発した研究室以外で実装例はなく,実際に推論を行うための最適

なネットワークの近似した構造や特性については言及してない.

そこで,本研究ではエッジ削除アルゴリズムを実装し,構造の異なる複結合ネット

ワークで全ての緩和したネットワークにおける事後確率を求める実験を行った.そ

の結果,エッジ削除アルゴリズムの精度は,再生したループに依存し,そのループ

が同じであれば,どのエッジを削除するかには依存しないことを明らかにした.

また,相互情報量に基づく再生についても精度と再生したエッジの関係から分析

を行い,相互情報量では正しく再生するエッジを選択できない場合があることが分

かった.そこで,相互情報量では二変数間の値で判断していた再生基準を,全変数

の値で判断するKLダイバージェンスを用いた再生基準にすることを提案した.そ

の結果,従来手法と比較してKLダイバージェンスを用いた再生基準が有効である

こと示した.

 

9

第2章 ベイジアンネットワーク

2.1 ベイジアンネットワーク・モデル

N個の変数集合 x = {x1, x2, . . . , xN}を持つベイジアンネットワークは,(G,Θ)で

表現される.

• G は xに対応するノード集合によって構成される非循環有向グラフ (Directed

acyclic graph; DAG),ネットワーク構造と呼ばれる.

• Θは,Gの各アークに対応する条件付き確率パラメータ集合{p(xi | Πi, G)}, (i =

1, · · · , N)である. ただし,Πiは変数 xiの親変数集合を示している.

変数 x = {x1, x2, . . . , xN}を持つベイジアンネットワークの同時確率分布 p(x)は

以下で示される。

p(x | G) =∏i

P (xi | Πi, G), (2.1)

2.2 ベイジアンネットワークの実際の表現と推論

具体的には,ベイジアンネットワークは,DAGで示されるネットワーク構造Gと

CPT(Conditional Probabities Tables)と呼ばれる条件付き確率表によって表現され

る.例えば,図 2.1は芝生が濡れていたとき,それがスプリンクラーによるものか

雨によるものかを推論するベイジアンネットワークの構造とCPTである.このよう

に,因果モデルをDAGで示されるネットワーク構造GとCPTで表現することから

始まる.

10

式 (2.1) よりすべての変数の状態について同時確率を計算し,同時確率分布表

(JPDT:Joint Probability Distribution Table)を得ることができる.

実装上のベイジアンネットワークでは,このCPTや JPDTを用いて計算する.

実際には,各変数の状態確率に興味があるので,以下のように N 個の変数を持

つ同時確率分布 p(x1, x2, . . . , xN | G)で対象となる変数 xi以外の変数を周辺化して

p(xi | G)を求めればよい.

p(xi | G) =∑

x1,...,xi−1,xi+1,...,xN

p(x1, x2, . . . , xN | G) (2.2)

このようにして,ベイジアンネットワークより周辺確率を求めることが可能となる.

図 2.1: ベイジアンネットワークのCPT

11

第3章 ジョインツリー・アルゴリズム

リンクの向きを考慮しないでネットワークをみたときに,どこか一つでもパスが

ループしている部分があるとき,このベイジアンネットワークは複結合ネットワー

クと呼ばれる.この場合には単純にリンクに沿って確率を伝搬していくだけでは,そ

の計算の収束性が保証できない.しかし,1990年代のはじめにジョインツリー・ア

ルゴリズム (Jointree algorihm)(Lauritzen and Spiegelhalter, 1988)と呼ばれるグラ

フ構造を事前に変換してから確率計算を実行する手法が開発されたことで,さまざ

まな構造に対するベイジアンネットワークの有用性が高まった.

ジョインツリー・アルゴリズムはまず,もとのベイジアンネットワークのノード

集合をクラスター,リンクをクラスター間で共有しているノードとして無向グラフ

に変換する.それには有向グラフにおいて共通の子を持つすべての親ノードの対に

エッジを張り,方向性を取り除いて有向グラフに対応した無向グラフ (モラル・グラ

フ)を構築するモラル化と呼ばれる操作を行う.

次に,4以上の長さを持つすべてのループにリンクを追加して 3‐クリークを作成

する三角化を繰り返してノードのクリークをクラスターとして生成する.隣接クラ

スター間で共有されているノードはリンクとして,単結合の木構造からなるジョイ

ンツリーと呼ばれる無向グラフを生成する.このような無向グラフはマルコフネッ

トワークとも呼ばれるが,この上でも確率伝搬を実行することができ、そのネット

ワークが単結合であれば,ベイジアンネットワークと同様に繰り返し計算は収束す

ることが知られている.このように,単結合の木構造ができるようにもとのベイジ

アンネットワークを変換しておけば,変換後のネットワーク上で確率伝播を行うこ

とで確率値を計算するのがジョインツリー・アルゴリズムである.

ただし,ジョインツリー・アルゴリズムは,ノード数が増え,グラフ構造が複雑にな

12

るにつれ,変換操作自体の計算コストが無視できない問題となる.ベイジアンネット

ワークの変数数がNのとき,ジョインツリー・アルゴリズムの計算量はO(N exp(w))

となる.wはジョインツリーで最大クラスターから 1を引いた数で,wをベイジア

ンネットワークの”width”(ウィズ)と呼ぶ.

13

第4章 ベイジアンネットワークの近似

推論

本章では,ベイジアンネットワークの近似推論アルゴリズムを紹介する.

4.1 ポリツリー・アルゴリズム

最初に提案されたベイジアンネットワークの確率更新アルゴリズムは,Judea Pearl

による単結合木のためのポリツリー・アルゴリズム (polytree algorithm)である (Pearl,

1988).このアルゴリズムは,ジョインツリー・アルゴリズムの特殊形で単結合木に

特化したアルゴリズムである.

ポリツリー・アルゴリズムでのノードUから子ノードXへのメッセージを πX(U)

と書き,因果サポート (causal support)と呼ぶ.また,子ノード Y から親ノードX

へのメッセージを λY (X)と書き,Y からXへの診断サポート (diagnostic support)

と呼ぶ (図 4.1右図).

14

図 4.1: ポリツリー・アルゴリズムによるメッセージ・パッシング

U = {U1, . . . , Ui, . . . , UpaX}, Y = {Y1, . . . , Yj, . . . , YchX}とし,paX をXの親ノー

ド数, chXをXの子ノード数とする.結果として,ノードXの親ノードUと子ノー

ド Yjの同時周辺分布は以下のように書ける.

p(XU, e) = λe(X)ϕ(X | U)∏i

πX(Ui)∏j

λYj(X). (4.1)

ここで,λe(X)は, xがエビデンス eに一致していれば λe(x) = 1,それ以外で 0と

なるダミー変数である.

これより,以下が成り立つ.

λX(Ui) =∑

XU\{Ui}

λe(X)ϕ(X | U)∏k ̸=i

πX(Uk)∏j

λYj(X) (4.2)

πYj(X) =

∑U

λe(X)ϕ(X | U)∏i

πX(Ui)∏k ̸=j

λYk(X). (4.3)

一般にノードはすべての隣接ノードからメッセージを受け取った後にのみ,隣接ノー

ドにメッセージを送る.一つしかメッセージがない場合,メッセージを受け取った

直後にそのノードにメッセージを送る.

従って,隣接ノードが単一の場合,そのノードはただちに隣接ノードにメッセー

ジを送信する.すなわち,ノードXが単一親ノードUしか持たない葉ノードであれ

15

ば,メッセージは以下のように送信される.

λX(U) =∑X

λe(X)ϕ(X | U)

また,単一子ノード Y しか持たないルート・ノードXのメッセージは以下のように

送信される.

πY (X) = λe(X)ϕ(X)

メッセージの送信プロセスは,まず,すべてのメッセージをルート・ノードに集

積し,次にルート・ノードからすべてのノードへメッセージを分散させる.

結果として,条件付き周辺確率BEL(XU) = p(XU | e)を求めるためには以下の

ように正規化すればよい.

BEL(XU) = ηλe(X)ϕ(X | U)∏i

πX(Ui)∏j

λYj(X)

ここで,ηはBEL(XU) = p(XU | e)が確率分布となるようにするための(和が 1と

なるようにするための)正規化定数である.

4.2 ルーピー・ビリーフ・プロパゲーション

ポリツリー・アルゴリズムは単結合木のための特殊なアルゴリズムであった.ルー

ピー・ビリーフ・プロパゲーションでは,これを強引に,一般的なベイジアンネット

ワークの構造である複結合のグラフに適応する.今,図 4.2でメッセージが単一ノー

ドのみに伝搬されるように,ノード Eからノード C へメッセージ λE(C)を送るこ

とから始めるとする.この場合,次にはどのメッセージも送られなくなってしまう.

なぜならば, 隣接ノードからのすべてのメッセージが送られてこないとメッセージを

送信できないからである。そこで,足りない情報を適当な値で補い,繰り返しメッ

セージ・パッシングを繰り返すことで一般的な複結合グラフでの確率更新を実現する

というアイデアが提案された.このアルゴリズムをルーピー・ビリーフ・プロパゲー

ション (Loopy belief propagation)と呼ぶ (Frey and MacKay, 1997, Murphy, Weiss,

Jordan 1999).

16

A

B C

D E

2

5

10

8

1

7

3

6

4

9

図 4.2: ルーピー・ビリーフ・プロパゲーションの動作例

ルーピー・ビリーフ・プロパゲーションのアルゴリズムを以下に示す.

まず,2.で全てのメッセージを一様分布に初期化する.すなわち,最初は,エビ

デンスの隣接ノード以外の変数は,この初期値が各ノードに送信されたと仮定して

メッセージを隣接ノードに送信する.t回目の繰り返しでは,t− 1回目に他の隣接

ノードから受信したメッセージを用いて,全ての隣接ノードにメッセージを送信す

る.そして,メッセージが収束するまでこれを繰り返すというアルゴリズムである.

ここで問題となるのはメッセージがいつ収束するかであるが,残念ながら, ルー

ピー・ビリーフ・プロパゲーションでは収束の保証性はない.さらに,収束率は,メッ

セージ・スケジュール (message schedule)と呼ばれるメッセージが更新される順序

に依存する.ルーピー・ビリーフ・プロパゲーションは一回の繰り返しで全てのメッ

セージの収束を待つので,並列スケジュール (parallel schedule)と呼ばれ,正確な更

新順序が予め既知の場合も反映されないアルゴリズムである.これに比べ,各メッ

セージごとに収束させる逐次スケジュール (sequential schedule)はより柔軟なアル

ゴリズムであるといえる.

実際には,最適なメッセージ・スケジュールはわからないので,逐次スケジュー

ルでは,繰り返し時点 tごとに順序をランダムに変化させるということが行われる.

しかし,ルーピー・ビリーフ・プロパゲーションではどのように慎重に順序を選

んだとしても収束の保証はないし,たとえ収束してもより良い収束点がある可能性

がある.

17

  ルーピー・ビリーフ・プロパゲーション:LBP(G, e)

• Input: ベイジアンネットワーク {G,Θ}

• e : エビデンス

• Output: approximate marginals BEL = p(XU | e)

main

1. t← 0

2. 全てのメッセージを一様分布 π0, λ0に初期化

3. while メッセージが収束していない  do

4.    t← t+ 1

5.    for 親ノード集合Uを持つ全ての変数X  do

6.       for 各親ノード変数 Ui ∈ U  do

7.        λtX(Ui) = η

∑XU\{Ui} λe(X)ϕ(X | U)

∏k ̸=i π

t−1X (Uk)

∏j λ

t−1Yj

(X),

ここで ηは正規化係数.

8.       end for

9.       for 各子ノード Yj do

10.         πtYj(X) = η

∑U λe(X)ϕ(X | U)

∏i π

t−1X (Ui)

∏k ̸=j λ

t−1Yk

(X)

11.       end for

12.    end for

13. end while

14. return ファミリーXU について

BEL(XU) = ηλe(X)ϕ(X | U)∏

i πtX(Ui)

∏j λ

tYj(X) を出力18

4.3 カルバック・ライブラー・ダイバージェンスによる

評価

二つの確率分布の距離を計測するためにカルバックライブラー (KL)ダイバージェ

ンス (Kullback Leibler divergence:KL divergence) が一般に用いられる.例えば, エ

ビデンス eを所与としたときの事後分布 p(X | e)とその近似 p′(X | e)の KLダイ

バージェンスは

KL(p′(X | e), p(X | e)) =∑x

p′(x | e) log p′(x | e)p(x | e)

(4.4)

と定義できる.KL(p′(X | e), p(X | e))は非負の値を取り,二つの分布が一致する

ときのみ最小値 0となる.ただし,厳密にはKLダイバージェンスは対象性が成り

立たず,距離空間ではない.

19

第5章 エッジ削除アルゴリズム

ベイジアンネットワーク研究のトップカンファレンスであるConference on Uncer-

tainty in Artificial Intelligence (UAI)の 2010年の開催で,与えられたデータを用い

て隠れたデータを推論するという課題で、推論アルゴリズムのコンテストが行われ

たが、ここで見事に優勝したのはChoi, A. and Darwiche, A. である。そのときの彼

らのコメントでは,「いろいろな経験から大規模なネットワークでの推論では,ルー

ピー・ビリーフ・プロパゲーションを繰り返し,収束しない箇所を削除してまた繰り

返すのが最も効率が良い」と口頭でコメントしている.これを精緻に実行するアル

ゴリズムが,エッジ削除アルゴリズム (Edge Deletion Algorithm)である(Choi and

Darwiche, 2010).

5.1 緩和 (Relax)

今,ベイジアンネットワークを正確な推論に従うようにするため,エッジの削除

によるネットワークの緩和を考える.図 5.1(a)は,変数U とXが等価U ≡ Xであ

る制約を持つネットワークである.この等価制約を緩和すると,図 5.1(a)は図 5.1(b)

のようにエッジを削除することができる.

20

図 5.1: 二変数の等価制約を持つベイジアンネットワークの緩和

より一般的な状況(図 5.2(a))では,このような等価制約はないので,エッジを

削除することにより子ノードXは親ノードUからの直接の依存を失い,親ノードU

は,子ノード Xによって受け取られたエビデンスの情報を失う可能性がある.そこ

で,図 5.2(a)のように与えられたネットワーク(ループを持つネットワーク)に等

価な構造を保証するために補助変数UとSを追加し,図 5.2(b)のようにエッジを削

除した構造(緩和したネットワーク)を考える.このとき,U はU と同じ周辺分布

を示すパラメータ ϕ(U)を持つノード,SはXが持つ U への診断サポート (λX(U))

に対応するパラメータ ϕ(S|U)を持ち,ソフト・エビデンス(確率値をエビデンスと

して扱う)としても解釈できる.エッジ削除アルゴリズムでは,エッジを削除して

補助の子ノード Sを追加し,元の構造による各ノードの周辺分布を近似しようとい

うアイデアである.

21

図 5.2: 一般的なループ構造の緩和

今,与えられたネットワークGの確率分布およびエビデンスを p,e,それに対応

する緩和したネットワークG′の分布およびエビデンスを p′,e′と書く.

このとき,緩和された構造のパラメータの条件は以下のように書ける.

ϕ(U) = p′(U |e′ − S) (5.1)

ϕ(S|U) = ηp′(e′|U) (5.2)

ここで,式 (5.2)の ηは正規化係数である.また,式 (5.1)のSは削除した各エッジの

エビデンスの情報を含み,ϕ(U)を求めるときに対応する削除したエッジによりエビ

デンスの情報が変わることを意味する.

式 (5.1)と式 (5.2)を満たすパラメータを計算するために以下の手続きを必要とす

る.まず,パラメータ ϕ(U)0および ϕ(S|U)0 が一様分布の緩和したネットワークG′0

を初期値とする.p′0をこのネットワークの確率分布とする.各反復 t > 0で,ネッ

トワークG′tのエッジのパラメータは,緩和したネットワークG′

t−1で以下の式で厳

密推論を行うことにより決定していく.

ϕ(U)t = p′t−1(U |e′ − S) (5.3)

ϕ(S|U)t = ηp′t−1(e′|U) (5.4)

22

ネットワークGtのパラメータがネットワークGt−1のパラメータと一致した場合に

エッジのパラメータは収束したとみなし,これを緩和したネットワークのパラメー

タ推定値とする.収束するまで,これらの計算を繰り返し行う.

さらに,ネットワークGおよび各反復 tで各変数の同時周辺分布は以下のように

書ける.

BELt(X) = p′t(X|e′) (5.5)

BELt(XU) = p′t(XU |e′) (5.6)

また,ループ構造で最大のポリツリー構造になるように任意のノード間のエッジを

削除した場合,緩和された構造での事後確率は元の構造でのルーピー・ビリーフ・プ

ロパゲーションの収束値に等しいことが証明されている (Choi and Darwiche, 2006).

以上のパラメータ推定アルゴリズムを示した.

図 5.3: ベイジアン・ネットワークの緩和

一方,図 5.3左のベイジアン・ネットワークを考えよう.すべてのエッジについて

緩和した構造が左から二番目の構造であり,いくつかのエッジを再生させた構造が

三番目,四番目の構造である.左から四番目の構造は,ループを緩和した最大のポリ

ツリー構造であり,最も良い近似になると考えられる.エッジ削除アルゴリズムは

この最大ポリツリー構造になるために必要な数のエッジを削除することから推論が

始まる.

23

  削除エッジのパラメータ推定アルゴリズム:ED-BP(G, e,Σ)

• Input: ベイジアン・ネットワーク {G,Θ}

• e : エビデンス

• Σ : 削除エッジ集合

• Output: approximate marginals BELt(XU) = p′t(XU |e′)

main

1. t← 0

2. G′0 ← GからΣの要素を削除したグラフ

3. e′ ← e+G′で追加した各ノード Sの証拠 s

4. 全ての補助変数パラメータを一様分布 ϕ(U)0,ϕ(S|U)0に初期化

5. while 補助変数パラメータが収束していない do

6. t← t+ 1

7. for 各削除エッジ U → X do

8. ϕ(U)t ← p′t−1(U |e′ − S)

9. ϕ(S|U)t ← ηp′t−1(e′|U),ここで ηは正規化係数.

10. end for

11. end while

12. return BELt(XU) = p′t(XU |e′) を出力

24

エッジ削除アルゴリズムでは,ルーピー・ビリーフ・プロパゲーションによって

うまく表現できないノード間のエッジを回復させ,エッジ削除してもうまく収束す

るノード間のみの構造を意図的に探索するという手法であり,現在,最も良いとい

われる手法である.

5.2 再生 (Recover)

エッジ削除アルゴリズムでは,どのエッジを削除するのかが最も重要である.各

エッジ間の条件付きパラメータを計算し,その結果から削除してもよいエッジを探

索すればよい.削除した後の確率パラメータ同士の相互情報量を計算し,その値が

高い順にエッジの重要度を決めることができる.相互情報量は,二変数が独立であ

れば最小値 0となり,従属性が高ければ高いほど大きな値をとるので,削除された

エッジの二変数間の相互情報量が高い場合,それらは独立ではないのでエッジが必

要であると考えられ,エッジを再生しなければならない.

例えば,図 5.2の例では,U と U の相互情報量MI(U,U)を計算すればよい.

MI(U,U) =∑U

∑U

p(U,U | e′) log p(U,U | e′)p(U | e′)p(U | e′)

(5.7)

結果として,相互情報量の高いエッジは削除せずに,再生させて構造を作成し,そ

の構造上で補助変数のパラメータを計算し,事後確率を求めればよい.

エッジ削除アルゴリズムを以下のアルゴリズムに示す.ただし,このアルゴリズ

ムには多数のバージョンが存在している.アルゴリズムのG′にループができた場合

にジョインツリー・アルゴリズムを適用するアルゴリズムが最も良い近似を得る事

が知られているChoi and Darwiche, 2010 ).

25

  エッジ削除アルゴリズム:ED(G, e)

• Input: ベイジアン・ネットワーク {G,Θ}

• e : エビデンス

• Output: approximate marginals BEL(XU) = p′(XU |e′)

main

1. Σ← 最大ポリツリー構造にするために削除したエッジの集合

2. G′ ← GからΣの要素を削除したグラフ

3. 削除エッジのパラメータ推定アルゴリズム(ED-BP)を用いて各変数Xの事

後確率を計算

4. while G′で正確な推論が可能である限りエッジを再生 do

5. 各削除エッジ U →Xで相互情報量MIを計算

6. Σ← 相互情報量トップK個を除くエッジ集合

7. G′ ← G′からΣの要素を削除したグラフ

8. end while

9. return BEL(XU) = p′(XU |e′) を出力

26

5.3 エッジ削除アルゴリズムの問題点

エッジ削除アルゴリズムは,ネットワークから最大ポリツリー構造を選択し,選択

した最大ポリツリー構造にエッジを削除してネットワークを緩和する.しかし,こ

のときの最大ポリツリー構造の最適な構造については議論されていない.実際には,

ネットワークから最大ポリツリーを構築するための削除エッジの選択は多くあり,ど

のエッジを削除するかの選択がエッジを再生する過程で有効であるのかの議論は重

要であると考えられる.また,エッジ削除アルゴリズムは実装が例がないため,ア

ルゴリズムの特性など,さらに良いアルゴリズムを作るために必要な性質や特性な

どについては明らかになっていない.そこで,本研究でエッジ削除アルゴリズムに

ついて多くの実験により緩和に対する精度や構造の特性について分析していく.

27

第6章 エッジ削除アルゴリズムの推論

における構造の特性分析

本章では,実際に実装したエッジ削除アルゴリズムを用いて,多くのネットワー

クで実験を行い,削除エッジの影響や構造の特性を分析した.

6.1 実験1

 削除エッジの選択によって,どのような影響や特徴があるのかを調べるために,

図 6.1から図 6.4のように条件付き確率を割り当てた構造の異なるネットワークに対

し,エッジ削除アルゴリズムの推論の過程で考えられる全ての構造でエッジ削除ア

ルゴリズムによる推論実験を行った.実験はエビデンスがない状態とある状態で行

い,エビデンスを持つノードはランダムに決定した.各変数は状態が真のとき 1,偽

のときに0とする.それぞれの図の特徴としては,図 6.1については 7ノードで 2つ

のループを持つ構造,図 6.2については 7ノードで 3つのループを持つ構造で,これ

らはループが共通するエッジを持たないネットワークである.また,図 6.3について

は 6ノードで 2つのループを持つ構造,図 6.4については 6ノードで 3つのループを

持つ構造で,これらはループが共通するエッジを持つネットワークである.それぞ

れの構造に対し,エッジの削除数ごとに整理し,推論における特性の分析を行った.

28

   

   

図 6.1: ネットワーク 1

   

29

       

図 6.2: ネットワーク 2

   

       

図 6.3: ネットワーク 3

   

30

   

   

図 6.4: ネットワーク 4

   

31

6.2 推論結果

各ネットワークの推論結果を再生の過程で変化する削除エッジ数ごとに表示する.

また,エッジ削除アルゴリズムが最大ポリツリー構造においてルーピー・ビリーフ・

プロパゲーションの収束値と一致することを確認するため,ルーピー・ビリーフ・

プロパゲーションの推論結果も表示する.

最初に,図 6.1のネットワーク 1の推論結果を表 6.1から表 6.6に示す.表 6.1はエ

ビデンスがない状態で最大ポリツリー構造に緩和するために 2つのエッジを削除し

たときの各ノードの事後確率である.表 6.2はエビデンスがない状態でのルーピー・

ビリーフ・プロパゲーションによる推論結果である.表 6.3はエビデンス (C=1)が

ある状態で最大ポリツリー構造に緩和するために 2つのエッジを削除したときの各

ノードの事後確率である.表 6.4はエビデンス (C=1)がある状態でのルーピー・ビ

リーフ・プロパゲーションによる推論結果である.表 6.5はエビデンスがない状態で

エッジを 1つ削除したときの各ノードの事後確率である.表 6.6はエビデンス (C=1)

がある状態でエッジを 1つ削除したときの各ノードの事後確率である.

表 6.1: ネットワーク 1

(エビデンスなし,削除エッジ数:2)

エビデンスなし 削除エッジ

事後確率 16通り (全て一致)

p′(A = 1|e′) 0.7

p′(B = 1|e′) 0.26

p′(C = 1|e′) 0.64581

p′(D = 1|e′) 0.596

p′(E = 1|e′) 0.8

p′(F = 1|e′) 0.84

p′(G = 1|e′) 0.65206

表 6.2: ネットワーク 1

(エビデンスなし)

エビデンス なし ルーピー・ビリーフ・プロパゲーション

事後確率

p(A = 1|e) 0.7

p(B = 1|e) 0.26

p(C = 1|e) 0.64581

p(D = 1|e) 0.596

p(E = 1|e) 0.8

p(F = 1|e) 0.84

p(G = 1|e) 0.65206

32

表 6.3: ネットワーク 1

(エビデンス C=1,削除エッジ数:2)

エビデンス C=1 削除エッジ

事後確率 16通り (全て一致)

p′(A = 1|e′) 0.69694

p′(B = 1|e′) 0.1072

p′(C = 1|e′) 1

p′(D = 1|e′) 0.518

p′(E = 1|e′) 0.76769

p′(F = 1|e′) 0.81415

p′(G = 1|e′) 0.68318

表 6.4: ネットワーク 1(エビデンス C=1)

エビデンス C=1 ルーピー・ビリーフ・プロパゲーション

事後確率

p(A = 1|e) 0.69694

p(B = 1|e) 0.1072

p(C = 1|e) 1

p(D = 1|e) 0.518

p(E = 1|e) 0.76769

p(F = 1|e) 0.81415

p(G = 1|e) 0.68318

表 6.5: ネットワーク 1(エビデンスなし,削除エッジ数:1)

エビデンスなし 削除エッジ

事後確率 {AB} {AD} {BC} {DC} {DG} {ED} {EF} {FG}

p′(A = 1|e′) 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7

p′(B = 1|e′) 0.26 0.26 0.26 0.26 0.26 0.26 0.26 0.26

p′(C = 1|e′) 0.64581 0.64581 0.64581 0.64581 0.64984 0.64984 0.64984 0.64984

p′(D = 1|e′) 0.596 0.596 0.596 0.596 0.596 0.596 0.596 0.596

p′(E = 1|e′) 0.8 0.8 0.8 0.8 0.8 0.8 0.8 0.8

p′(F = 1|e′) 0.84 0.84 0.84 0.84 0.84 0.84 0.84 0.84

p′(G = 1|e′) 0.65808 0.65808 0.65808 0.65808 0.65206 0.65206 0.65206 0.65206

表 6.6: ネットワーク 1(エビデンス C=1,削除エッジ数:1)

エビデンス C=1 削除エッジ

事後確率 {AB} {AD} {BC} {DC} {DG} {ED} {EF} {FG}

p′(A = 1|e′) 0.69694 0.69694 0.69694 0.69694 0.69199 0.69199 0.69199 0.69199

p′(B = 1|e′) 0.1072 0.1072 0.1072 0.1072 0.11707 0.11707 0.11707 0.11707

p′(C = 1|e′) 1 1 1 1 1 1 1 1

p′(D = 1|e′) 0.518 0.518 0.518 0.518 0.51754 0.51754 0.51754 0.51754

p′(E = 1|e′) 0.76769 0.76769 0.76769 0.76769 0.77311 0.77311 0.77311 0.77311

p′(F = 1|e′) 0.81415 0.81415 0.81415 0.81415 0.81849 0.81849 0.81849 0.81849

p′(G = 1|e′) 0.69001 0.69001 0.69001 0.69001 0.68359 0.68359 0.68359 0.68359

33

次に,図 6.2のネットワーク 2の推論結果を表 6.5から表 6.14に示す.表 6.5はエ

ビデンスがない状態で最大ポリツリー構造に緩和するために 3つのエッジを削除し

たときの各ノードの事後確率である.表 6.6はエビデンスがない状態でのルーピー・

ビリーフ・プロパゲーションによる推論結果である.表 6.7はエビデンス (D=1)が

ある状態でを最大ポリツリー構造に緩和するために 3つのエッジを削除したときの

各ノードの事後確率である.表 6.8はエビデンス (D=1)がある状態でのルーピー・

ビリーフ・プロパゲーションによる推論結果である.表 6.9はエビデンスがない状

態でエッジを 2つ削除したときの各ノードの事後確率である.表 6.10はエビデンス

(D=1)がある状態でエッジを 2つ削除したときの各ノードの事後確率である.表 6.13

はエビデンスがない状態でエッジを 1つ削除したときの各ノードの事後確率である.

表 6.14はエビデンス (D=1)がある状態でエッジを 1つ削除したときの各ノードの事

後確率である.

表 6.7: ネットワーク 2

(エビデンスなし,削除エッジ数:3)

エビデンス なし 削除エッジ

事後確率 27通り (全て一致)

p′(A = 1|e′) 0.6

p′(B = 1|e′) 0.36

p′(C = 1|e′) 0.3976

p′(D = 1|e′) 0.53856

p′(E = 1|e′) 0.24094

p′(F = 1|e′) 0.44457

p′(G = 1|e′) 0.39609

表 6.8: ネットワーク 2(エビデンスなし)

エビデンス なし ルーピー・ビリーフ・プロパゲーション

事後確率

p(A = 1|e) 0.6

p(B = 1|e) 0.36

p(C = 1|e) 0.3976

p(D = 1|e) 0.53856

p(E = 1|e) 0.24094

p(F = 1|e) 0.44457

p(G = 1|e) 0.39609

34

表 6.9: ネットワーク 2

(エビデンス D=1,削除エッジ数:3)

エビデンス D=1 削除エッジ

事後確率 27通り (全て一致)

p′(A = 1|e′) 0.70172

p′(B = 1|e′) 0.35207

p′(C = 1|e′) 0.65042

p′(D = 1|e′) 1

p′(E = 1|e′) 0.16504

p′(F = 1|e′) 0.39903

p′(G = 1|e′) 0.39672

表 6.10: ネットワーク 2

(エビデンス D=1)

エビデンス D=1 ルーピー・ビリーフ・プロパゲーション

事後確率

p(A = 1|e) 0.70172

p(B = 1|e) 0.35207

p(C = 1|e) 0.65042

p(D = 1|e) 1

p(E = 1|e) 0.16504

p(F = 1|e) 0.39903

p(G = 1|e) 0.39672

表 6.11: ネットワーク 2(エビデンスなし,削除エッジ数:2)

エビデンス なし 削除エッジ

事後確率 {AB,CD} {AB,CE} {AB,DE} {AC,CD} {AC,CE} {AC,DE} {BC,CD} {BC,CE} {BC,DE} {AB,EF} {AB,EG} {AB,FG} {AC,EF} {AC,EG} {AC,FG} {BC,EF} {BC,EG} {BC,FG} {CD,EF} {CD,EG} {CD,FG} {CE,EF} {CE,EG} {CE,FG} {DE,EF} {DE,EG} {DE,FG}

p′(A = 1|e′) 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6

p′(B = 1|e′) 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36

p′(C = 1|e′) 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.3976 0.388 0.388 0.388 0.388 0.388 0.388 0.388 0.388 0.388

p′(D = 1|e′) 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.53856 0.5328 0.5328 0.5328 0.5328 0.5328 0.5328 0.5328 0.5328 0.5328

p′(E = 1|e′) 0.24094 0.24094 0.24094 0.24094 0.24094 0.24094 0.24094 0.24094 0.24094 0.19783 0.19783 0.19783 0.19783 0.19783 0.19783 0.19783 0.19783 0.19783 0.2399 0.2399 0.2399 0.2399 0.2399 0.2399 0.2399 0.2399 0.2399

p′(F = 1|e′) 0.44457 0.44457 0.44457 0.44457 0.44457 0.44457 0.44457 0.44457 0.44457 0.4187 0.4187 0.4187 0.4187 0.4187 0.4187 0.4187 0.4187 0.4187 0.44394 0.44394 0.44394 0.44394 0.44394 0.44394 0.44394 0.44394 0.44394

p′(G = 1|e′) 0.45096 0.45096 0.45096 0.45096 0.45096 0.45096 0.45096 0.45096 0.45096 0.39602 0.39602 0.39602 0.39602 0.39602 0.39602 0.39602 0.39602 0.39602 0.39608 0.39608 0.39608 0.39608 0.39608 0.39608 0.39608 0.39608 0.39608

表 6.12: ネットワーク 2(エビデンス D=1,削除エッジ数:2)

エビデンスD=1 削除エッジ

事後確率 {AB,CD} {AB,CE} {AB,DE} {AC,CD} {AC,CE} {AC,DE} {BC,CD} {BC,CE} {BC,DE} {AB,EF} {AB,EG} {AB,FG} {AC,EF} {AC,EG} {AC,FG} {BC,EF} {BC,EG} {BC,FG} {CD,EF} {CD,EG} {CD,FG} {CE,EF} {CE,EG} {CE,FG} {DE,EF} {DE,EG} {DE,FG}

p′(A = 1|e′) 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.70172 0.7027 0.7027 0.7027 0.7027 0.7027 0.7027 0.7027 0.7027 0.7027

p′(B = 1|e′) 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35207 0.35135 0.35135 0.35135 0.35135 0.35135 0.35135 0.35135 0.35135 0.35135

p′(C = 1|e′) 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65042 0.65541 0.65541 0.65541 0.65541 0.65541 0.65541 0.65541 0.65541 0.65541

p′(D = 1|e′) 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

p′(E = 1|e′) 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16504 0.16554 0.16554 0.16554 0.16554 0.16554 0.16554 0.16554 0.16554 0.16554

p′(F = 1|e′) 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39903 0.39932 0.39932 0.39932 0.39932 0.39932 0.39932 0.39932 0.39932 0.39932

p′(G = 1|e′) 0.43806 0.43806 0.43806 0.43806 0.43806 0.43806 0.43806 0.43806 0.43806 0.39672 0.39672 0.39672 0.39672 0.39672 0.39672 0.39672 0.39672 0.39672 0.3967 0.3967 0.3967 0.3967 0.3967 0.3967 0.3967 0.3967 0.3967

35

表 6.13: ネットワーク 2(エビデンスなし,削除エッジ数:1)

エビデンス なし 削除エッジ

事後確率 {AB} {AC} {BC} {CD} {CE} {DE} {EF} {EG} {FG}

p′(A = 1|e′) 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6

p′(B = 1|e′) 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36

p′(C = 1|e′) 0.3976 0.3976 0.3976 0.388 0.388 0.388 0.388 0.388 0.388

p′(D = 1|e′) 0.53856 0.53856 0.53856 0.5328 0.5328 0.5328 0.5328 0.5328 0.5328

p′(E = 1|e′) 0.19783 0.19783 0.19783 0.2399 0.2399 0.2399 0.19716 0.19716 0.19716

p′(F = 1|e′) 0.4187 0.4187 0.4187 0.44394 0.44394 0.44394 0.4183 0.4183 0.4183

p′(G = 1|e′) 0.44363 0.44363 0.44363 0.45078 0.45078 0.45078 0.39603 0.39603 0.39603

表 6.14: ネットワーク 2(エビデンス D=1,削除エッジ数:1)

エビデンス D=1 削除エッジ

事後確率 {AB} {AC} {BC} {CD} {CE} {DE} {EF} {EG} {FG}

p′(A = 1|e′) 0.70172 0.70172 0.70172 0.7027 0.7027 0.7027 0.7027 0.7027 0.7027

p′(B = 1|e′) 0.35207 0.35207 0.35207 0.35135 0.35135 0.35135 0.35135 0.35135 0.35135

p′(C = 1|e′) 0.65042 0.65042 0.65042 0.65541 0.65541 0.65541 0.65541 0.65541 0.65541

p′(D = 1|e′) 1 1 1 1 1 1 1 1 1

p′(E = 1|e′) 0.16504 0.16504 0.16504 0.16554 0.16554 0.16554 0.16554 0.16554 0.16554

p′(F = 1|e′) 0.39903 0.39903 0.39903 0.39932 0.39932 0.39932 0.39932 0.39932 0.39932

p′(G = 1|e′) 0.43806 0.43806 0.43806 0.43814 0.43814 0.43814 0.3967 0.3967 0.3967

36

次に,図 6.3のネットワーク 3の推論結果を表 6.15から表 6.20に示す.表 6.15は

エビデンスがない状態で最大ポリツリー構造に緩和するために 2つのエッジを削除し

たときの各ノードの事後確率である.表 6.16はエビデンスがない状態でのルーピー・

ビリーフ・プロパゲーションによる推論結果である.表 6.17はエビデンス (D=0)

がある状態で最大ポリツリー構造に緩和するために 2つのエッジを削除したときの

各ノードの事後確率である.表 6.18はエビデンス (D=0)がある状態でのルーピー・

ビリーフ・プロパゲーションによる推論結果である.表 6.19はエビデンスがない状

態でエッジを 1つ削除したときの各ノードの事後確率である.表 6.20はエビデンス

(D=0)がある状態でエッジを 1つ削除したときの各ノードの事後確率である.

表 6.15: ネットワーク 3

(エビデンスなし,削除エッジ数:2)

エビデンス なし 削除エッジ

事後確率 15通り (全て一致)

p′(A = 1|e′) 0.6

p′(B = 1|e′) 0.24

p′(C = 1|e′) 0.26

p′(D = 1|e′) 0.35649

p′(E = 1|e′) 0.104

p′(F = 1|e′) 0.3448

表 6.16: ネットワーク 3(エビデンスなし)

エビデンス なし ルーピー・ビリーフ・プロパゲーション

事後確率

p(A = 1|e) 0.6

p(B = 1|e) 0.24

p(C = 1|e) 0.26

p(D = 1|e) 0.35649

p(E = 1|e) 0.104

p(F = 1|e) 0.3448

表 6.17: ネットワーク 3

(エビデンス D=0,削除エッジ数:2)

エビデンス D=0 削除エッジ

事後確率 15通り (全て一致)

p′(A = 1|e′) 0.62619

p′(B = 1|e′) 0.17332

p′(C = 1|e′) 0.22133

p′(D = 1|e′) 0

p′(E = 1|e′) 0.08899

p′(F = 1|e′) 0.30631

表 6.18: ネットワーク 3

(エビデンス D=0)

エビデンス D=0 ルーピー・ビリーフ・プロパゲーション

事後確率

p(A = 1|e) 0.62619

p(B = 1|e) 0.17332

p(C = 1|e) 0.22133

p(D = 1|e) 0

p(E = 1|e) 0.08899

p(F = 1|e) 0.30631

37

表 6.19: ネットワーク 3(エビデンスなし,削除エッジ数:1)

エビデンス なし 削除エッジ

事後確率 {AB} {AC} {BD} {CD} {CE} {EF} {FD}

p′(A = 1|e′) 0.6 0.6 0.6 0.6 0.6 0.6 0.6

p′(B = 1|e′) 0.24 0.24 0.24 0.24 0.24 0.24 0.24

p′(C = 1|e′) 0.26 0.26 0.26 0.26 0.26 0.26 0.26

p′(D = 1|e′) 0.35589 0.35589 0.35589 0.35646 0.36122 0.36122 0.36122

p′(E = 1|e′) 0.104 0.104 0.104 0.104 0.104 0.104 0.104

p′(F = 1|e′) 0.3448 0.3448 0.3448 0.3448 0.3448 0.3448 0.3448

表 6.20: ネットワーク 3(エビデンス D=0,削除エッジ数:1)

エビデンス D=0 削除エッジ

事後確率 {AB} {AC} {BD} {CD} {CE} {EF} {FD}

p′(A = 1|e′) 0.62596 0.62596 0.62596 0.62619 0.62824 0.62824 0.62824

p′(B = 1|e′) 0.1729 0.1729 0.1729 0.17335 0.16804 0.16804 0.16804

p′(C = 1|e′) 0.22189 0.22189 0.22189 0.22133 0.2168 0.2168 0.2168

p′(D = 1|e′) 0 0 0 0 0 0 0

p′(E = 1|e′) 0.08985 0.08985 0.08985 0.08902 0.08715 0.08715 0.08715

p′(F = 1|e′) 0.30672 0.30672 0.30672 0.30633 0.30781 0.30781 0.30781

38

最後に,図 6.4のネットワーク 4の推論結果を表 6.21から表 6.28に示す.表 6.21

はエビデンスがない状態で最大ポリツリー構造に緩和するために 4つのエッジを削

除したときの各ノードの事後確率である.表 6.22はエビデンスがない状態でのルー

ピー・ビリーフ・プロパゲーションによる推論結果である.表 6.23はエビデンス

(F=0)がある状態で最大ポリツリー構造に緩和するために 3つのエッジを削除した

ときの各ノードの事後確率である.表 6.24はエビデンス (F=0)がある状態でのルー

ピー・ビリーフ・プロパゲーションによる推論結果である.表 6.25はエビデンスが

ない状態でエッジを 2つ削除したときの各ノードの事後確率である.表 6.26はエビ

デンス (F=0)がある状態でエッジを 2つ削除したときの各ノードの事後確率である.

表 6.27はエビデンスがない状態でエッジを 1つ削除したときの各ノードの事後確率

である.表 6.28はエビデンス (F=0)がある状態でエッジを 1つ削除したときの各

ノードの事後確率である.

表 6.21: ネットワーク 4

(エビデンスなし,削除エッジ数:3)

エビデンス なし 削除エッジ

事後確率 35通り (全て一致)

p′(A = 1|e′) 0.7

p′(B = 1|e′) 0.418

p′(C = 1|e′) 0.29571

p′(D = 1|e′) 0.14

p′(E = 1|e′) 0.4

p′(F = 1|e′) 0.48493

表 6.22: ネットワーク 4

(エビデンス なし)

エビデンス なし ルーピー・ビリーフ・プロパゲーション

事後確率

p(A = 1|e) 0.7

p(B = 1|e) 0.418

p(C = 1|e) 0.29571

p(D = 1|e) 0.14

p(E = 1|e) 0.4

p(F = 1|e) 0.48493

39

表 6.23: ネットワーク 4

(エビデンス F=0,削除エッジ数 3)

エビデンス F=0 削除エッジ

事後確率 35通り (全て一致)

p′(A = 1|e′) 0.67801

p′(B = 1|e′) 0.4741

p′(C = 1|e′) 0.19841

p′(D = 1|e′) 0.09257

p′(E = 1|e′) 0.32718

p′(F = 1|e′) 0

表 6.24: ネットワーク 4

(エビデンス F=0)

エビデンス F=0 ルーピー・ビリーフ・プロパゲーション

事後確率

p(A = 1|e) 0.67801

p(B = 1|e) 0.4741

p(C = 1|e) 0.19841

p(D = 1|e) 0.09257

p(E = 1|e) 0.32718

p(F = 1|e) 0

表 6.25: ネットワーク 4(エビデンスなし,削除エッジ数:2)

エビデンス なし 削除エッジ

事後確率 {AB,BC} {AB,EB} {AB,EF} {AD,BC} {AD,EB} {AD,EF} {BC,EB} {BC,EF} {AB,CF} {AD,CF} {AB,DC} {AB,DF} {AD,DC} {AD,DF} {DC,DF} {BC,CF} {BC,DC} {CF,DC} {BC,DF} {CF,DF} {CF,EB} {CF,EF} {DF,EB} {DF,EF} {DC,EB} {DC,EF}

p′(A = 1|e′) 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7

p′(B = 1|e′) 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418

p′(C = 1|e′) 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.29571 0.28916 0.28916 0.28916 0.28916 0.28916 0.29571 0.29571

p′(D = 1|e′) 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14

p′(E = 1|e′) 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4

p′(F = 1|e′) 0.47621 0.47621 0.47621 0.47621 0.47621 0.47621 0.47621 0.47621 0.48493 0.48493 0.49032 0.49032 0.49032 0.49032 0.49032 0.48493 0.48493 0.48493 0.48493 0.48353 0.48353 0.48353 0.48353 0.48353 0.4838 0.4838

表 6.26: ネットワーク 4(エビデンス F=0,削除エッジ数:2)

エビデンス F=0 削除エッジ

事後確率 {AB,BC} {AB,EB} {AB,EF} {AD,BC} {AD,EB} {AD,EF} {BC,EB} {BC,EF} {AB,CF} {AD,CF} {AB,DC} {AB,DF} {AD,DC} {AD,DF} {DC,DF} {BC,CF} {BC,DC} {CF,DC} {BC,DF} {CF,DF} {CF,EB} {CF,EF} {DF,EB} {DF,EF} {DC,EB} {DC,EF}

p′(A = 1|e′) 0.67925 0.67925 0.67925 0.67925 0.67925 0.67925 0.67925 0.67925 0.67889 0.67889 0.6799 0.6799 0.6799 0.6799 0.6799 0.67794 0.67794 0.67794 0.67801 0.67719 0.67719 0.67719 0.67719 0.67719 0.67717 0.67717

p′(B = 1|e′) 0.48569 0.48569 0.48569 0.48569 0.48569 0.48569 0.48569 0.48569 0.47342 0.47342 0.47201 0.47201 0.47201 0.47201 0.47201 0.47534 0.47534 0.47534 0.47404 0.47349 0.47349 0.47349 0.47349 0.47349 0.47424 0.47424

p′(C = 1|e′) 0.20847 0.20847 0.20847 0.20847 0.20847 0.20847 0.20847 0.20847 0.18929 0.18929 0.19072 0.19072 0.19072 0.19072 0.19072 0.19819 0.19819 0.19819 0.19841 0.19515 0.19515 0.19515 0.19515 0.19515 0.19974 0.19974

p′(D = 1|e′) 0.10405 0.10405 0.10405 0.10405 0.10405 0.10405 0.10405 0.10405 0.0956 0.0956 0.09627 0.09627 0.09627 0.09627 0.09627 0.09263 0.09263 0.09263 0.09257 0.0938 0.0938 0.0938 0.0938 0.0938 0.09378 0.09378

p′(E = 1|e′) 0.32269 0.32269 0.32269 0.32269 0.32269 0.32269 0.32269 0.32269 0.33046 0.33046 0.32401 0.32401 0.32401 0.32401 0.32401 0.32725 0.32725 0.32725 0.32718 0.3286 0.3286 0.3286 0.3286 0.3286 0.32692 0.32692

p′(F = 1|e′) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

40

表 6.27: ネットワーク 4(エビデンスなし,削除エッジ数:1)

エビデンスなし 削除エッジ

事後確率 {AB} {AD} {BC} {CF} {DC} {DF} {EB} {EF}

p′(A = 1|e′) 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7

p′(B = 1|e′) 0.418 0.418 0.418 0.418 0.418 0.418 0.418 0.418

p′(C = 1|e′) 0.29571 0.29571 0.29571 0.28916 0.29571 0.28916 0.28916 0.28916

p′(D = 1|e′) 0.14 0.14 0.14 0.14 0.14 0.14 0.14 0.14

p′(E = 1|e′) 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4

p′(F = 1|e′) 0.47937 0.47937 0.47621 0.48353 0.48912 0.48907 0.47595 0.47595

表 6.28: ネットワーク 4(エビデンス F=0,削除エッジ数:1)

エビデンス F=0 削除エッジ

事後確率 {AB} {AD} {BC} {CF} {DC} {DF} {EB} {EF}

p′(A = 1|e′) 0.68232 0.68232 0.67919 0.67813 0.67897 0.67911 0.67927 0.67927

p′(B = 1|e′) 0.48465 0.48465 0.48667 0.4748 0.47359 0.47196 0.48498 0.48498

p′(C = 1|e′) 0.18984 0.18984 0.20833 0.1862 0.19185 0.18711 0.20406 0.20406

p′(D = 1|e′) 0.11174 0.11174 0.1042 0.09672 0.0976 0.09728 0.10401 0.10401

p′(E = 1|e′) 0.31905 0.31905 0.32279 0.33179 0.32373 0.32532 0.32429 0.32429

p′(F = 1|e′) 0 0 0 0 0 0 0 0

41

6.3 推論結果からの分析

各ネットワークとも最大ポリツリー構造 (エッジ削除の数が最大)のとき,エッジ

削除アルゴリズムの事後確率は理論通り全てルーピー・ビリーフ・プロパゲーショ

ンと一致することが確認できた.

また,エッジの削除数を変化させたときの各変数の事後確率に注目すると,例え

ば,ネットワーク 1で 1つエッジを削除した場合,{AB},{AD},{BC},{DC}など,各

ネットワークごとに推論の結果が一致する削除エッジの組み合わせがが多く存在す

る.さらにエビデンスがある状態とない状態で比較しても,ネットワーク 1の削除

エッジ {AB},{AD},{BC},{DC}のように常に同じ事後確率となるエッジの削除があ

り,これらは表の線で囲まれた部分の削除エッジごとに分類することができた.こ

の同じ事後確率となる削除エッジとそのときの各ネットワークの構造からエッジ削

除アルゴリズムが持つ特性を分析する.

ネットワーク 1では,常に同じ事後確率となる削除エッジは表 6.5と表 6.6から

{AB},{AD},{BC},{DC}と {DE}, {ED}, {EF}, {FG}の二つのグループに分類でき

る.今,{AB}を削除エッジとして選択したとき,残るループはEDGFである.他

に削除した場合にEDGFのループが残るエッジは {AD}, {BC},{DC}であり,これ

らは常に同じ事後確率となる削除エッジと一致している.図 6.5のように常に同じ

事後確率となる削除エッジは,残るループが同じ場合に一致する.なお,太線が残

るループ,点線が削除するエッジとする.

42

       

図 6.5: ネットワーク 1(削除エッジ数:1)

   

ネットワーク 2で削除エッジを 2つ選択するとき,常に同じ事後確率となる削除

エッジは表 6.11と表 6.12から {AB,CD},{AB,CE},{AB,DE},{AC,CD},{AC,CE},

{AC,DE},{BC,CD},{BC,CE},{BC,DE}と{AB,EF},{AB,EG},{AB,FG},{AC,EF},

{AC,EG},{AC,FG},{BC,EF},{BC,EG},{BC,FG}と{CD,EF},{CD,EG},{CD,FG},

{CE,EF},{CE,EG},{CE,FG},{DE,EF},{DE,EG},{DE,FG} の三つのグループに分

類できる.図 6.6のように、削除エッジを 2つ選択したときに残るループ (EFGの

ループ,CDEのループ,ABCのループ)ごとに一致している.また,ネットワーク

2で削除エッジを 1つ選択したとき,常に同じ事後確率となる削除エッジは表 6.13

と表 6.14から {AB},{AC},{BC}と {CD},{CE},{DE}と {EF},{EG},{FC}の三つ

のグループに分類することができる.図 6.7のように削除エッジを 1つ選択したと

きに残るループ構造 (CDEとEFGのループ,ABCとEFGのループ,ABCとCDE

のループ)ごとに一致している.

43

       

図 6.6: ネットワーク 2(削除エッジの数:2)

   

       

図 6.7: ネットワーク 2(削除エッジの数:1)

   

ネットワーク 3で削除エッジを 1つ選択するとき,常に同じ事後確率となる削除

エッジは表 6.19と表 6.20から {AB},{AC},{BD}と {CD}と {CE},{EF},{FD}の三

つのグループに分類することができる.図 6.8のように削除エッジを 1つ選択した

ときに残るループ (CDFEのループ,ABDFECのループ,ABDCのループ)ごとに

一致している.

44

   

   

図 6.8: ネットワーク 3(削除エッジの数:1)

   

ネットワーク 4で削除エッジを 2つ選択するとき,表 6.25と表 6.26から {AB,BC},

{AB,EB},{AB,EF},{AD,BC},{AD,EF}, {BC,EB},{BC,EF}と{AB,CF},{AD,CF}

と{AB,DC},{AB,DF},{AD,DC},{AD,DF},{DC,DF}と{BC,CF},{BC,DC},{CF,DC}

と{BC,DF}と{CF,DF},{CF,EB},{CF,EF},{DF,EF}と{DC,EB},{DC,EF}の七つ

のグループに分類できる.図6.9のように削除エッジを2つ選択したときに残るループ

(CDEのループ,BCDFEのループ,BCFEのループ,BADFEのループ,BADCFE

のループ,BADCのループ,BADFCのループ)ごとに一致している.また,ネット

ワーク 4で削除エッジを 1つ選択するとき,表 6.27と表 6.28から {AB},{AD}と

{BC}と {CF}と {DC}と {DF}と {EB},{EF}の六つのグループに分類することが

できる.図 6.10のように削除エッジを 1つ選択したときに残るループ (BADFCと

BCFEのループ,BADCFEとCDFのループ,BADCとBCDFEのループ,BCFE

とCDFのループ,BADCとBCFEのループ,BADCとCDFのループ)ごとに一致

している.

45

   

  

 

図 6.9: ネットワーク 4(削除エッジの数:2)

   

       

図 6.10: ネットワーク 4(削除エッジの数:1)

   

46

このことから常に事後確率が一致するエッジの組み合わせは削除したときに残る

ループによって特定でき,エッジ削除アルゴリズムの精度は残るループに依存する

という特性があることが分かる.しかし,今回の実験ではノード数が少なく,ルー

プも少ないので次節でより複雑なネットワークによる実験を行う.また,各ネット

ワークの最適な最大ポリツリー構造は,ネットワーク 1とネットワーク 2のように

ループに共通するエッジを持たないネットワークの場合は,全ての最大ポリツリー

が再生の過程で最も良い精度を持つエッジ削除の組み合わせを持っており,単純に

精度は再生順序のみによって決まる.このようなネットワークの場合,ランダムで

削除エッジを決めることが高速で最も効率がいいことが分かった.次に,ネットワー

ク 3とネットワーク 4のようにループに共通するエッジを持つネットワークでは,最

適な最大ポリツリー構造はエビデンスの変化によって変わるため,特定は難しいと

いえる.実際に,ネットワークの複雑さに応じて削除で選択するエッジの組み合わ

せは指数的に増加するのでランダムに削除エッジを選択し,より良い再生基準を考

える方が今後の研究では現実的であるかもしれない.また,ループからネットワー

クを考える方が削除エッジの選択よりも量は少ないので,ループを利用して精度を

特定するようなアルゴリズムを考えることも重要である.

6.4 実験2

実験 1での分析が正しいことを示すために,より複雑な図 6.11のように条件付き

確率を割り当てたネットワーク 5で実験を行った.実験は残るループをBGNHに指

定した削除エッジの組み合わせが異なる図 6.12(削除エッジ {BC,BF,DJ,EK,LQ}と

図 6.13(削除エッジ {BD,FK,LQ,GJ,GL})が,エビデンスにかかわらず事後確率が一

致するかを調べた.

47

   

  

 

図 6.11: ネットワーク 5

   48

       

図 6.12: BGNHのループを持つ構造 (削除エッジ {BC,BF,DJ,EK,LQ} )

   

       

図 6.13: BGNHのループを持つ構造 (削除エッジ {BD,FK,LQ,GJ,GL} )

   

6.5 推論結果

図6.12(削除エッジ{BC,BF,DJ,EK,LQ}と図6.13(削除エッジ{BD,FK,LQ,GJ,GL})

のようにエッジを削除したネットワークの各エビデンスの推論結果を以下に示す.

49

表 6.29: ネットワーク 5

(エビデンス P=1,Q=1,R=1,S=1,T=1,

削除エッジ数:5)

事後確率 削除エッジ{BC,BF,DJ,EK,LQ}

p′(A = 1|e′) 0.10211

p′(B = 1|e′) 0.05382

p′(C = 1|e′) 0.72349

p′(D = 1|e′) 0.88404

p′(E = 1|e′) 0.74473

p′(F = 1|e′) 0.36724

p′(G = 1|e′) 0.08062

p′(H = 1|e′) 0.60971

p′(I = 1|e′) 0.05269

p′(J = 1|e′) 0.89654

p′(K = 1|e′) 0.78404

p′(L = 1|e′) 0.04133

p′(M = 1|e′) 0.66209

p′(N = 1|e′) 0.43288

p′(O = 1|e′) 0.09479

p′(P = 1|e′) 1

p′(Q = 1|e′) 1

p′(R = 1|e′) 1

p′(S = 1|e′) 1

p′(T = 1|e′) 1

表 6.30: ネットワーク 5

(エビデンス P=1,Q=1,R=1,S=1,T=1,

削除エッジ数:5)

事後確率 削除エッジ{BD,FK,GJ,GL,LQ}

p′(A = 1|e′) 0.10211

p′(B = 1|e′) 0.05382

p′(C = 1|e′) 0.72349

p′(D = 1|e′) 0.88404

p′(E = 1|e′) 0.74473

p′(F = 1|e′) 0.36724

p′(G = 1|e′) 0.08062

p′(H = 1|e′) 0.60971

p′(I = 1|e′) 0.05269

p′(J = 1|e′) 0.89654

p′(K = 1|e′) 0.78404

p′(L = 1|e′) 0.04133

p′(M = 1|e′) 0.66209

p′(N = 1|e′) 0.43288

p′(O = 1|e′) 0.09479

p′(P = 1|e′) 1

p′(Q = 1|e′) 1

p′(R = 1|e′) 1

p′(S = 1|e′) 1

p′(T = 1|e′) 1

結果が示すように,残るループが同じであるエッジ削除の組み合わせは,常に同

じ事後確率となった.このことから,実験 1の分析は正しいといえる.

50

表 6.31: ネットワーク 5

(エビデンス A=0,I=0,

削除エッジ数:5)

事後確率 削除エッジ{BC,BF,DJ,EK,LQ}

p′(A = 1|e′) 0

p′(B = 1|e′) 0.02905

p′(C = 1|e′) 0.73589

p′(D = 1|e′) 0.69129

p′(E = 1|e′) 0.34946

p′(F = 1|e′) 0.38896

p′(G = 1|e′) 0.05237

p′(H = 1|e′) 0.68257

p′(I = 1|e′) 0

p′(J = 1|e′) 0.5524

p′(K = 1|e′) 0.35259

p′(L = 1|e′) 0.07058

p′(M = 1|e′) 0.65786

p′(N = 1|e′) 0.09521

p′(O = 1|e′) 0.05

p′(P = 1|e′) 0.48668

p′(Q = 1|e′) 0.17736

p′(R = 1|e′) 0.28588

p′(S = 1|e′) 0.9

p′(T = 1|e′) 0.16664

表 6.32: ネットワーク 5

(エビデンス A=0,I=0,

削除エッジ数:5)

事後確率 削除エッジ{BD,FK,GJ,GL,LQ}

p′(A = 1|e′) 0

p′(B = 1|e′) 0.02905

p′(C = 1|e′) 0.73589

p′(D = 1|e′) 0.69129

p′(E = 1|e′) 0.34946

p′(F = 1|e′) 0.38896

p′(G = 1|e′) 0.05237

p′(H = 1|e′) 0.68257

p′(I = 1|e′) 0

p′(J = 1|e′) 0.5524

p′(K = 1|e′) 0.35259

p′(L = 1|e′) 0.07058

p′(M = 1|e′) 0.65786

p′(N = 1|e′) 0.09521

p′(O = 1|e′) 0.05

p′(P = 1|e′) 0.48668

p′(Q = 1|e′) 0.17736

p′(R = 1|e′) 0.28588

p′(S = 1|e′) 0.9

p′(T = 1|e′) 0.16664

51

第7章 再生基準の提案

 エッジ削除アルゴリズムの分析結果から,エッジ削除アルゴリズムの事後確率

はループに依存しており,再生したときに最も精度がよいループを知ることで削除

エッジの正しい再生を行うことができる.しかし,ネットワークが複雑になるほど,

とりうる構造は指数的に増加し,その中から最適な構造を見つけることは非常に困

難である.そこで,より良いエッジの再生基準を探すことを考える.

7.1 相互情報量に基づく再生とその問題

現在提案されている相互情報量に基づく再生は,各削除エッジのパラメータの相

互情報量を測定し,相互情報量が大きい順にエッジを再生するというものである.相

互情報量に基づく再生では,相互情報量が大きい場合,それらは独立ではないので

エッジが必要であり,相互情報量が最小値である 0の場合,そのエッジは再生する

必要のないエッジとされる.

このことが正しくいえるのかを調べるために,以下の実験を行った.実験は,図6.2

のネットワーク 2(エビデンス D=1)で最大ポリツリー構造 (削除エッジ {AC,CE,EG}

)の状態での相互情報量と精度の関係を調べることによって行う.まず,各エッジの

相互情報量を求める.各エッジの相互情報量を表 7.1に示す.

52

表 7.1: 再生過程における相互情報量

エビデンス D=1 削除エッジ

各エッジの相互情報量 {AC,CE,EG} {CE,EG} {CE} {EG}

AC 4.24× 10−6 0 0 0

CE 0 0

EG 0

この場合,二つの削除エッジ ({CE}と {EG})の相互情報量が 0であり,相互情報

量によってエッジの再生を決めるのであれば,二つの削除エッジは再生する必要が

なく,削除エッジ {AC}を再生した後のエッジの再生は必要ないと考えられる.実

際に相互情報量が 0のエッジを再生した場合に精度に変化がないのか確認するため,

最大ポリツリー構造 (削除エッジ {AC,CE,EG} )で考えられる全再生過程における

精度を表 7.2に示す.実験の精度は周辺分布の二乗誤差の和で評価した.

表 7.2: 最大ポリツリー構造 (削除エッジ {AC,CE,EG} )で考えられる全再生過程に

おける精度

エビデンス D=1 削除エッジ

{AC,CE,EG} {AC,CE} {AC,EG} {CE,EG} {AC} {CE} {EG}

周辺分布の二乗誤差の和 0.003485 0.0000533 0.003485 0.003435 0.0000533 0 0.003435

削除エッジ {AC,CE,EG}から相互情報量が 0である削除エッジ {CE}を再生した

場合の {AC,EG}は再生する前と同じ精度であり,同様に,削除エッジ {AC,CE},

{CE,EG}から {CE}を再生した場合も残った削除エッジの精度は再生する前と変わ

らないことが表 7.2より確認できる.このように,相互情報量が 0である削除エッ

ジ {CE}はたしかに再生する必要のないエッジといえる.しかし,同じように相互

53

情報量が 0である削除エッジ {EG}を {EG}を含む削除エッジの組み合わせから再

生した場合,精度は再生後に変化しており {EG}は再生する必要のあるエッジとい

える.このように,削除エッジの相互情報量が 0をとる場合でもエッジ削除の妥当

性が保証されないエッジが存在することが分かった.実際にその他の実験でも,推

論環境によって相互情報量 0の全てのエッジの削除が妥当である場合もあるが,相

互情報量 0のエッジではあるが精度に影響し,再生した方がよいエッジである場合

が多く存在した.

このように相互情報量に基づく再生では,削除エッジの中には相互情報量が 0で

あってもエッジ削除の妥当性が保証されるエッジと保証されないエッジが存在し,こ

の二つを区別できる再生基準を考える必要がある.そこで,相互情報量では二変数

間の値で判断していた再生基準を,正しく全変数の影響を見ることのできるKLダ

イバージェンスを使った再生基準を提案する.

7.2 提案手法

各削除エッジを 1つ削除したときのKLダイバージェンスを計測し,このKLダ

イバージェンスで精度に影響が大きいエッジの順に再生を行うことを提案する.こ

の提案手法は,各エッジの変数全体に対する影響を見ることで削除エッジの持つ影

響を相互情報量よりも正しく分析した上で,最終的なループ構造の精度が良いもの

を選択していくというものである.

7.3 実験3

実際に,図 6.11のネットワーク 5で提案手法と相互情報量に基づく再生の比較実

験を行った.最大ポリツリー構造 (削除エッジ {BC,BF,BH,DJ,EK,LQ})から各手法

によってエッジを再生した結果を図 7.1と図 7.2に示す.なお,実験の精度は周辺分

布の二乗誤差の和で評価した.

54

図 7.1で 2つエッジを再生させたとき,提案手法よりも相互情報量に基づく再生

の方が精度が高くなった.これは提案手法がループに共通するエッジがないネット

ワークの場合は常に最も良い再生を行うことができるが,ループに共通するエッジ

があるネットワークの場合には,削除エッジ数によって最適なループが変化するた

めである.提案手法は最終的にもっとも精度の高い構造を選択するとともに,KLダ

イバージェンスによってエッジの削除が妥当であるかを正確に判断できるので,再

生の結果からもわかるように,大部分において提案手法が相互情報量に基づく再生

より有効である.

しかし,提案手法は厳密推論で適用可能な範囲まででしか利用できないため,厳密

推論の対応しない範囲で適用できる再生基準を提案手法のようにループと対応させ

るなどして新たに考える必要がある.また,相互情報量に基づく再生も正確にエッ

ジの削除が妥当であるかを判断できれば,精度が改善され,厳密推論が適用できな

い範囲でより有効なアルゴリズムになると考えられる.

55

       

図 7.1: ネットワーク 5(削除エッジ {BC,BF,BH,DJ,EK,LQ}, エビデンス A=0, I=1,

K=0, S=1)における各手法の精度の比較

   

56

       

図 7.2: ネットワーク 5(削除エッジ {BC,BF,BH,DJ,EK,LQ},エビデンス P=1, Q=1,

R=1, S=1, T=1)における各手法の精度の比較

   

57

第8章 まとめ

本論では,エッジ削除アルゴリズムを実装し,ループ構造を持つ異なるネットワー

クの全ての推論過程 (エッジを削除による緩和したネットワーク)を調べることによ

りエッジ削除アルゴリズムの特性を分析した.

分析結果は以下のとおりである.

• エッジ削除アルゴリズムの精度は,削除エッジを再生したときのループに依存

し,そのループが同じであれば,どのエッジを削除するかには依存しない

また,再生基準についても分析を行い,相互情報量に基づく再生について以下の

問題点を発見した.

• 削除エッジの中には相互情報量が 0であってもエッジ削除の妥当性が保証され

ないエッジが存在する

このことから,KLダイバージェンスを用いた再生基準を提案し,実験において相

互情報量に基づくエッジの再生よりも有効であることを示した.

58

第9章 今後の課題

今後の課題として,以下の点が挙げらる.

• ループ構造と精度の関係をさらに分析し,より明確にすること

• 相互情報量が 0のエッジ削除の妥当性に関する分析 

• 厳密推論が対応しない範囲に適用可能な再生基準を見つけること

• これらを利用したより良い確率推論アルゴリズムを開発すること

59

第10章 謝辞

本研究の遂行にあたり,終始ご指導,ご助言を頂きました主任指導教官の植野真臣

准教授に, 心から深く感謝いたします. また,指導教員である岡本敏雄教授や田中健

次教授には,的確なコメントやアドバイスなどの形でご指導いただいたことをお礼申

し上げます. 最後に研究方法や発表方法など様々なご助言、コメントいただいた研

究室の先輩や後輩の皆様にお礼申し上げます.

本論文の執筆にあたり植野先生の書いたゼミ内のベイジアン・ネットワークのテ

キストの多くを参考にさせていただきました.

60

参考文献

[1] J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible

Inference. Morgan Kaufmann, San Mateo, CA, (1988)

[2] B. Frey and D. MacKay. A revolution: belief propagation in graphs with cycles.

In Proceedings of the Conference on Neural Information Processing Systems,

pages 479-485. MIT Press, Cambridge, MA, (1997)

[3] Kevin P. Murphy and Yair Weiss and Michael I. Jordan, Loopy Belief Prop-

agation for Approximate Inference: An Empirical Study, In Proceedings of

Uncertainty in AI, 467–475, (1999)

[4] Lauritzen,S. and Spiegelhalter, D.J. Local computation with probabilities on

graphical structures and their application to expert systems, Journal of Royal

Statistics Society, Series B, 50(2), 157-224, (1988) 

[5] A. Choi and A. Darwiche. An edge deletion semantics for belief propagation and

its practical impact on approximation quality. In Proceedings of the National

Conference on Artificial Intelligence. AAAI Press, Menlo Park, CA, (2006)

[6] Arthur Choi and Adnan Darwiche. Relax, Compensate and then Recover. In

New Frontiers in Artificial Intelligence, volume 6797 of Lecture Notes in Com-

puter Science, pages 167-180, (2011)

61

[7] J. Yedidia, W. Freeman, and Y. Weiss. Generalized belief propagation. In Pro-

ceedings of the Conference on Neural Information Processing Systems, pages

689-695. MIT Press, Cambridge, MA, (2000)

[8] Arthur Choi, Mark Chavira and Adnan Darwiche. Node Splitting: A Scheme

for Generating Upper Bounds in Bayesian Networks. In Proceedings of the 23rd

Conference on Uncertainty in Artificial Intelligence (UAI), pages 57-66, (2007)

[9] A. Choi and A. Darwiche. Approximating the partition function by deleting

and then correcting for model edges. In Proceedings of the 24th Conference on

Uncertainty in Artificial Intelligence. AUAI Press, Arlington, VA, (2008)

[10] Darwiche, A. Modeling and reasoning with Bayesian networks, Cambridge Uni-

versity Press, NY, (2009)

[11] 繁枡算男,植野真臣,本村陽一:ベイジアンネットワーク概説 株式会社培風

館 (2006)

62