ベイジアンネットワーク構築アルゴリズム ... ·...
TRANSCRIPT
DEIM Forum 2015 E2-5
ベイジアンネットワーク構築アルゴリズム PBIL-RS の性能評価
山中 優馬† 吉廣 卓哉‡
†‡和歌山大学システム工学部 〒640-8510 和歌山市栄谷 930
E-mail: †[email protected],‡[email protected]
あらまし ベイジアンネットワークは,事象間の因果関係を表す確率モデルとして,広く利用されている.ベイ
ジアンネットワーク構築アルゴリズムとして,近年では,遺伝的アルゴリズムを用いた方法が盛んに提案されてい
る.その中で,確率ベクトルに基づいた遺伝的アルゴリズムの一種である PBIL に基づいた方法が,高速に優れた
ベイジアンネットワークを求める方法として提案されている.これに対して我々の研究グループでは,PBIL を更に
拡張し,PBIL によって探索領域が狭まり収束してきたときに,再び適切に探索領域を拡張して再探索を行う仕組み
を備えた PBIL-RS(PBIL-Repeated Search)を提案している.本研究では,PBIL-RS に対して詳細な評価を行い,
PBIL-RS の特性と,その優れた性能を明らかにする.
キーワード ベイジアンネットワーク,遺伝的アルゴリズム,PBIL
1. はじめに
ベイジアンネットワークは事象間の因果関係を表
す確率モデルとして知られている.近年,計算機の急
速な発展により,ある程度以上の大規模なデータをベ
イジアンネットワークで解析することが可能になり,
バイオインフォマティクス,医学,ドキュメント分類,
情報検索,意思決定支援など,様々な分野でのベイジ
アンネットワークの活用が加速している.このように,
ベイジアンネットワークは様々な研究分野で有用な,
大規模なデータ分析技術の一つとして有望視されてい
る [15].
しかし,ベイジアンネットワークに含まれる事象の
数が増えるに従い,探索すべき確率モデルの候補数が
指数的に増加する.膨大なモデルの中から最適なベイ
ジアンネットワークモデルを求める問題は NP 困難で
あることが知られている [1].このため,近似解を高速
に得るための方法がいくつか提案されている.Cooper
らが提案した K2[2]と呼ばれるアルゴリズムは,事象
の間の因果関係の順序を制約として仮定することで,
探索空間を大幅に削減し,高速なベイジアンネットワ
ークモデルの計算を可能にした.ここで順序制約とは,
例えば,事象に発生した時刻がある場合には,時間的
に前に発生した事象のみが,後に発生した事象の原因
に成り得る,といった制約である.しかし現実の実用
場面では,順序制約が仮定できない場合が多く,利用
できる場面が限られる問題がある.
順序制約が仮定できない場合を対象とした研究も
存在し,その多くは遺伝的アルゴリズムを用いた方法
を提案している [9][10][11].これらは,実用的な時間
である程度優れたモデルを計算できるが,まだ実用的
な水準であるとは言い難い.近年得られるようになっ
てきた,より大規模なデータを取り扱うために,より
効率のよいアルゴリズムが期待される.
この要求に対して,近年では,EDA(Estimation of
Distribution Algorithm)と呼ばれる種類のアルゴリズム
が規模の大きいベイジアンネットワークモデル構築に
おいて,より良い性能を発揮すると報告されている
[4][6][8][12].EDA とは,確率ベクトルを用いた遺伝
的アルゴリズムの一手法であり,各世代で個体を生成
し,優れた個体を用いて確率ベクトルを学習すること
で,確率的な探索効率を向上する探索手法である.EDA
に も い く つ か の 種 類 が あ る が , 中 で も , PBIL
(Population-Based Incremental Learning)[3]と呼ばれる
方法がベイジアンネットワークの学習に最も適してお
り,優れた解を効率的に計算することが可能であると
の報告がある [4].
最初の PBIL に基づいたベイジアンネットワーク構
築アルゴリズムは Blanco らによって提案された [5].
彼らのアルゴリズムは短時間で優れたベイジアンネッ
トワークを構築するが,学習によって局所解に陥る欠
点があった.このため,PBIL に適用する突然変異操作
が複数提案された.半田らは,生成した個体に対して,
1 ビットの変異を確率的に加える Bitwise Mutation を提
案した [12].Kim らは,ベイジアンネットワークに特
化して,因果関係を反転させる Transpose Mutation を
提案した [4].福田らは,学習する確率分布そのものに
突然変異を起こす Probability Mutation を提案した [8].
これらは,局所解に陥ることを防ぎ,PBIL によるベイ
ジアンネットワークの学習を,時間をかければ優れた
解が見つかる,より信頼性の高い方法へと改良した.
しかし,一定確率で突然変異が発生するため,優れた
解が存在する領域を十分に探索する前に,突然変異に
より探索領域が変わってしまう欠点があった.
これに対して福田らは,PBIL によって,優れた解が
存在しそうな探索領域を確率ベクトルにより学習する
が,その領域を十分に探索してから突然変異を発生さ
せて探索領域を変える戦略により,従来よりも優れた
解を短時間で探索するアルゴリズム PBIL-RS(PBIL–
Repeated Search)を提案した [6].PBIL-RS では,PBIL
が管理する確率ベクトルに着目し,学習により探索領
域が十分に狭まり,その局所領域の探索が十分に終わ
ったことを検出すると,確率ベクトルに突然変異を加
えて再び探索領域を拡張して再探索を行うことで,効
率的なベイジアンネットワークの構築を実現した.し
かし,福田らの論文 [6]では,特定の状況やパラメータ
による評価のみが実施されており,PBIL-RS の性能や
特性を十分に評価できたとは言い難い.
本論文では,PBIL-RS に対して詳細な評価を行い,
PBIL-RS がどのような挙動で解の探索を行い,優れた
ベイジアンネットワークを探しだすのか,その特性と
優れた性能を明らかにする.
本論文の構成は以下の通りである.第 2 節では,本
研究で対象とする,遺伝的アルゴリズムの一種である
PBIL に基づくベイジアンネットワーク構築アルゴリ
ズムを紹介する.第 3 節では我々の研究グループが提
案する PBIL-RS を紹介する,第 4 節で PBIL-RS の性能
評価を行い,第 5 節で本論文をまとめる.
2. 関連研究
2.1 ベイジアンネットワーク
ベイジアンネットワークモデルは事象間の因果関
係を可視化したグラフ表現である.事象をノード,因
果関係をリンクによって表す.簡単なベイジアンネッ
トワークの例を図 1 に示し,これを用いて説明する.
ノード X1,X2,X3 はそれぞれが事象を表しており,そ
れぞれ対応する事象が生起すれば値が 1,事象が生起
しなければ値が 0 をとる.リンク X1→X3 ,X2→X3 の
それぞれは因果関係を表し,これによって,X3 は X1
と X2 の値に依存する条件付確率によって値が定まる
ことを表す.X1→X3 のようなリンクが存在するとき,
X1 を親ノード,X3 を子ノードと呼ぶ.親ノードを持た
ないノード X1 と X2 はそれ自身が持つ生起確率 P(X1),
P(X2)によって値が定まる.一方で,X3 は X1,X2 とい
う 2 つの親ノードを持ち,その生起確率は条件付き確
率 P(X3|X1,X2)であり,この確率に従い X3 の値が定ま
る.例えば,X1 と X2 の両方の値が 1 をとるとき,X3
の生起確率は 0.950 である.また,図1のモデルにお
いて X3 のみが観測された場合に,ベイズ推定を用いる
ことで X3 の親ノードである X1 と X2 の事後確率を求め
られる.このように,ベイジアンネットワークモデル
を構築することにより,事象の原因となる事象を推定
することが可能である.
ベイジアンネットワークでは,事象を観測すること
により得られるデータからモデルを学習する.観測の
数をSとして,観測データをO={o j},1≦ j≦Sで表す.
事象の数をNとしたとき, j番目の観測はo j=(x j1,x j2,…,
x jN)で表せる.ここで x j iはすべての i(1≦ i≦N)は事象X i
に対する j番目の観測を表す.我々はこのように与えら
れた観測データから優れたモデルθを学習することを
試みる.ここで言う優れたモデルとは,より観測デー
タOに合致したモデル,つまり,その確率モデルに従
って事象を生起させた場合に,Oに近いデータが生成
されるようなモデルのことである.モデルがどれほど
データに合致しているかの評価基準として,ベイジア
ンネットワーク構築問題を取り扱う上でよく用いられ
る,情報量基準の一種であるAIC (Akaike’s
Information Criterion) [7]を用いる.我々が考える問題
は,観測データセットに対して最も評価関数AICが低
い値をとるベイジアンネットワークモデルを求めるこ
とである.
2.2 PBIL
最近,ベイジアンネットワーク構築問題を解くため
に,EDA (Estimation Distribution Algorithm)と呼ば
れるアルゴリズムに基づいた手法がさかんに提案され,
優れたベイジアンネットワークを効率よく構築できる
ことが報告されている [4][6][8][12].EDA の一種であ
る PBIL[3]は遺伝的アルゴリズムの一種であり,1994
年に Baluja らによって提案された.後に,Blanco らが
PBIL をベイジアンネットワークの学習に適用し,PBIL
がベイジアンネットワーク構築問題において,効率よ
くベイジアンネットワークモデルを構築することが可
能であることを示した [5].
PBIL では,ひとつの個体をベクトル s={v1,v2,…,
vL}で定義する. v i(1≦ i≦L)は 0 または 1 の値をとり,
全体が L 個の要素で構成される個体の i 番目の要素を
表す.また,個体を生成する確率ベクトル P={p1,p2,
…,pL}を定義する.p i(1≦ i≦L)は v i=1 である確率であ
る.この時 PBIL の動作は以下のように記述される.
(1) 確率ベクトル P を p i = 0.5 (i=1,2,…,L; L は個
体を構成する要素の個数 )として初期化する.
(2) 確率ベクトル P に基づき v i(1≦ i≦L)の値を決定
し,個体 s を生成する.つまり v i の値は確率 p i
に基いて定まる.これを C 回繰り返し,C 個の
個体集合 S を生成する.
(3) 各個体 s∈S に対して評価関数を用いて評価値を
算出する.
(4) 評価値の高い上位 C’個 (C’ ≦ C)の個体を選択し,
個体集合 S から選択された C’個の個体集合 S’に
ついて,以下の計算式を用いて確率ベクトルを
更新する:
ここで, new
ip は更新後の確率ベクトル, ip は更
( )× + ×(1.0- ).new
i ip ratio i p α α (i)
新前の確率ベクトルを表す. ( )ratio i は個体集合 S’
に含まれるリンクの割合であり,α は学習率と呼
ばれるパラメータである.
(5) (2)に戻る
PBIL は評価値の上位 C’個の個体を用いて,学習率
α の割合で確率ベクトルを学習することで,より優れ
た個体が生成されやすい確率ベクトルに進化してい
く. PBIL は他の遺伝的アルゴリズムと異なり個体同
士の交叉ステップは含まない.代わりに生成した個体
を親として確率ベクトルを進化させていく.
2.3 PBIL によるベイジアンネットワーク構築アル
ゴリズム
この節では,PBIL によるベイジアンネットワーク構
築アルゴリズムを記述する.我々が扱うベイジアンネ
ットワーク構築問題を解くことは,前節で説明した
PBIL の説明と少し異なり,それに合わせた PBIL の修
正が必要である.
このアルゴリズムでは,PBIL における各個体が,そ
れぞれのベイジアンネットワークモデルに相当する.
すなわち,事象の数を N とすると,ひとつの個体を,
ベクトル s={v11,v12,…,v1N,v21,v22,…,vN1,vN2,
…,vNN}で定義する.ここで v i j は X i から X j へのリンク
に相当する.例えば,もし, v i j = 1 であれば,X i から
X j へのリンクが存在することを表し,v i j = 0 であれば,
X i から X j へのリンクが存在しないことを表す.同様
に,個体となるベイジアンネットワークモデルを生成
する元となる確率ベクトル P を P={p11,p12,…,p1N,
p21,p22,…,pN1,pN2,…,pNN}と定義する.p i j は X i
から X j へのリンクが存在する確率である.ここで注
意したいのは,ベイジアンネットワークは自己循環リ
ンクを持つことは許されない制約があるので, i = j を
満たす p i j は,すべて値が 0 をとることである.確率ベ
クトル P は確率表とみなすことができ,それを図 2 に
示す.
PBIL によるベイジアンネットワーク構築アルゴリ
ズムの動作は,基本的には PBIL の手順と同じであり,
以下のように記述される
(1) 確率ベクトル P を初期化する.この時 i = j なら
ば p i j = 0,それ以外は p i j = 0.5 として初期化す
る.
(2) 確率ベクトル P を用いて C 個のベイジアンネッ
トワークモデルを生成し,これを個体集合 S と
する.(このステップを図 3 に示す.)
(3) 個体集合 S に含まれるすべての個体 s∈S のそれ
ぞれに対して,評価値を算出する.
(4) 評価値の高い上位 C’個 (C’ ≦ C)の個体を選択
する.個体集合 S から選択された C’個の個体集
合 S’を用いて式 (i)を用いて確率ベクトルを更
新する. ((3), (4)の動作を図 4 に示す )
(5) (2)に戻る.
PBIL と同様に,PBIL によるベイジアンネットワー
ク構築アルゴリズムは,より優れたベイジアンネット
ワークモデルが生成されやすい確率ベクトルに進化し
てく.しかし,ベイジアンネットワークモデルは特有
の制約がある.それは非循環構造であるという制約で
ある.その制約を考慮した,詳しい (2)のステップを以
下に記述する.
(2a) ノード X i と X j のペアを pair(i, j)と定義する.1
≦ i, j ≦ N かつ, i ≠ j.である全てのペア
に対してランダムに pair(i,j)の順序を生成する..
(2b) (2a)で生成された順序で, pair(i, j)を順に選び,
確率ベクトル P に基づいて v i j の値を決定する.
毎回の v i j の値を決定する際に,もし v i j = 1 なら
ば,既に決定されたリンク集合に,この X i から
X j へのリンクを追加することで,循環構造が生
成されるかどうかを調べる.この時,循環構造
を生成してしまうリンクであると判断された場
合は v i j = 0 とする.
(2c) すべての pair(i, j)に対してリンクの有無を決定
するまで (2a)へ戻る.
この手順を踏むことで PBIL の枠組みで,優れたベ
イジアンネットワークモデルを探索する問題を扱うこ
とが可能になる.上記の,PBIL によるベイジアンネッ
トワーク構築アルゴリズムは,突然変異操作を含まず,
学習によって局所解に陥る欠点がある.これを回避す
るために,PBIL に適用する突然変異操作が複数提案さ
れている.半田らは,生成した個体に対して,1 ビッ
トの変異を確率的に加える Bitwise Mutation を提案し
図 1 ベイジアンネットワークモデルの例
た [12].Kim らは,ベイジアンネットワークに特化し
て,因果関係を反転させる Transpose Mutation を提案
した [4].福田らは,学習する確率分布そのものに突然
変異を起こす Probability Mutation を提案した [8].これ
らは,局所解に陥ることを防ぎ,PBIL によるベイジア
ンネットワークの学習を,時間をかければ優れた解が
見つかる,より信頼性の高い方法へと改良した.
3. PBIL-RS
PBIL-RS(PBIL– Repeated Search)は,福田らによ
って提案された,突然変異に変わる新たな仕組みを取
り入れた,PBIL によるベイジアンネットワーク構築ア
ルゴリズムである [6].突然変異は一定の確率で発生す
るため,優れた解が存在する領域を十分に探索する前
に,突然変異により探索領域が変わってしまう欠点が
ある.これに対して福田らは,確率ベクトルの収束の
度合いを収束度として定義して,その収束度が数世代
に渡って更新されなかった場合に,その領域を十分に
探索したと判断して,突然変異を発生させることで,
探索領域を変えるという戦略をとっている.ここで,
世代数とは PBIL によるベイジアンネットワークの学
習の手順を(1)から(5)までを一回として,試行した回
数のことを表す.
PBIL-RS は確率ベクトルが収束しているかどうかを
判断し,収束していると判断された場合に,次の世代
でより良い個体を生成するために,確率ベクトル P に
対して操作を行う. PBIL-RS では,探索領域を制御す
る変数 H を定義する.H は探索領域が収束してきた場
合に,どの程度領域を拡大するのかを示し,H の値が
大きいほど,探索領域は大きく拡大されることを意味
する.確率ベクトルの収束の度合いを収束度 S と定義
する.収束度 S は以下の計算式を用いて算出され,値
が小さいほど探索領域が狭く収束していることを示
す:
N,N
1, 1
{1 (2× 0.5 )}.ij
i j
S p
(iii)
収束度 S が最小値を更新しないことを許容する世代
数を k と定義する.すなわち,S が k 世代にわたって
変化しなければ,探索領域が収束したと見なす.この
動作を PBIL によるベイジアンネットワーク構築アル
ゴリズムのステップ(4)と(5)の間に挿入する。具体的
な動作としては以下のように記述できる.
(a) 前世代までに生成したベイジアンネットワー
クモデルと比較して,現在の世代で,より良い
ベイジアンネットワークモデルが生成され,最
良のベイジアンネットワークモデルが更新さ
れたかどうかを判定する.もし,モデルの更新
が起こった場合は H の値を初期値に設定し,そ
うでなければ H の値を変更しない.
(b) 収束度 S を算出する.
(c) k 世代の間に収束度 S の最小値の更新がなかっ
た場合, i ≠ j の条件のもと,pij をランダム
に選択し,pij = 0.5 とする.そうでなければ,
確率ベクトル P に対する操作をせずに終了する.
(d) (c)で変更された確率ベクトル P に対して,計
算式(iii)を用いて,収束度 S’を算出する.こ
の時,もし S’< S+H であれば(c)に戻る
(e) H を増やし,確率ベクトル P に対する操作を終
了する
図 2 確率ベクトル P 図 3 モデル生成の様子 図 4 確率ベクトルの更新
PBIL-RS はこのような動作をして、現在の探索領
域が十分に探索されたと判断した上で,探索領域を拡
大することで,局所解に陥ることを防ぐ. PBIL-RS は
探索領域を拡大する度に H を増やす.これは同じ局所
解に陥ることを防ぐ操作である.また,ベイジアンネ
ットワークモデルの更新が起こった場合に,局所解か
ら脱したと判断し H を初期値に設定している.
4. 評価
4.1 評価目的と方針
福田らは, PBIL-RS と既存手法との比較実験と,
PBIL-RS が観測データのサンプル数によって性能に影
響を受けるかを確かめる実験を行った.その実験から
PBIL-RS が最も効率よく,優れたベイジアンネットワ
ークモデルを構築することが可能な手法であることを
示し,かつ,少ないサンプル数においても優れたベイ
ジアンネットワークモデルを構築できる手法であるこ
とを明らかにした [6].
本研究では,福田らの評価に加えて,各種パラメー
タの影響評価をする,そして,ノード数によらず
PBIL-RS が有効であることを示す. PBIL-RS には様々
なパラメータが存在する.その様々あるパラメータが
PBIL-RS の性能に与える影響を評価し,適切なパラメ
ータの値を明らかにする.これを明らかにすることよ
り,PBIL-RS を用いてベイジアンネットワークモデル
を探索する際,パラメータ設定を行う大きな手助けに
なるものと考える.また,福田らの評価では,ノード
数が数十規模のベイジアンネットワークを用いて評価
をしている. PBIL-RS がより大きい規模のベイジアン
ネットワークモデルにおいて有効であることを示し,
大規模なベイジアンネットワークモデルを構築が可能
な,実用的な手法であることを示す必要がある.
4.2 既存手法との比較評価
実験の手順としては,はじめに,観測データの生成
に使用するベイジアンネットワークモデルを用意する.
今 回 の 評 価 実 験 に 使 用 し た モ デ ル は Alarm
Network[13]と呼ばれ,ベイジアンネットワークモデル
構築問題を取り扱う際によく用いられるモデルと
Pathfinder[14]と呼ばれる外科病理学者がリンパ節疾患
の診断をする際に支援するために構築されたベイジア
ンネットワークモデルである.ベイジアンネットワー
クは各ノードが,そのノードのとりうる値を決定する
確率をもっている.親ノードは自身の生起確率によっ
て値を決定し,子ノードは親ノードの値によって変わ
る条件付き確率によって値が決定する.はじめに親ノ
ードから値を決定する.次に親ノードの値によって条
件付き確率が決まった子ノードの値が決定する.これ
を繰り返すことで全てのノードの値が決定する.この
ノードの値の組み合わせを 1 サンプルとする.これを
1000 回繰り返すことにより,サンプル数 1000 のデー
タセットが出来上がる.これをベイジアンネットワー
クモデルを構築するための観測データとする.ベイジ
アンネットワークモデルの良さを AIC[7]にて値を算
出しており,この値が低いほど,優れたベイジアンネ
ットワークモデルである.このように用意した観測デ
ータから PBIL-RS の性能評価を行う.
既存手法と比較して PBIL-RS の性能評価を行う.
PBIL-RS と比較するために突然変異を含まない PBIL
手法と複数の突然変異を含む手法との計4つとの比較
を行う. PBIL-RS のパラメータ設定は使用モデルを
Alarm Network[13]と Pathfinder[14]の 2 つを用いて評
価した,パラメータは各手法がほとんど AIC の更新の
起こらない世代数と学習率に設定した.各手法は表 3.1
表 3.1 実験パラメータ (PBIL-RS)
表 3.2 各手法と AIC の値
世代数を 500,学習率を 0.2 としたパラメータを使用
した,ただし比較手法は k,S,H の値は使用しない.突
然変異の発生確率は,Alarm Network[13]において,BM
は [0.001:0.2]の範囲で最も性能が良かった 0.005,TM
は [0.05:0.5]の範囲で最も良かった 0.1 を使用し,PM
は [0.001:0.009]の範囲で最も性能が良かった 0.002 を
使用した.実験の試行回数は 10 回としその平均スコア
により評価した.
表 3.2 に結果をまとめた.表 3.2 は行が各手法を指
し,列が使用したモデルを指し,各手法が使用モデル
毎に得られたベイジアンネットワークモデルの AIC の
値をまとめた表である.
表 3.2 によると 37 ノードと 135 ノード規模の両方の
ベイジアンネットワークにおいて既存手法よりも
PBIL-RS が最も良い性能を示している. 135 ノードに
おいて PBIL よりも突然変異操作を含む PBIL が探しだ
したベイジアンネットワークモデルの AIC の値が低い
理由は,突然変異操作の優れた解が存在する領域を十
分に探索する前に,突然変異により探索領域が変わっ
てしまう欠点が探索に大きく影響したからである.
4.3 評価各種パラメータの影響評価
この節ではパラメータによる PBIL-RS の性能への影
響を明らかにするため,PBIL-RS を異なるパラメータ
値によって実行し,ベイジアンネットワークモデルの
探索を行い,求めた最良のベイジアンネットワークモ
AIC の値を比較する.具体的には,最も影響が強いと
考えられるパラメータである学習率の変化によって,
PBIL-RS が求めるベイジアンネットワークモデルの評
価値がどのような差異を示すかを評価する.
学習率を変化させ,PBIL-RS が 500 世代までに探し
だしたベイジアンネットワークモデルの AIC のスコア
の遷移を図 5 に示した.図 5 は探索開始から探索終了
までのベイジアンネットワークモデルの AIC の値の遷
移を示しており,その値は,7 回の平均値で遷移の傾
向が十分に出ることから,30 回中の 7 回を取り出し,
平均値を求めた.図 5 は縦軸がベイジアンネットワー
クモデルの AIC の値を,横軸が経過した世代数を表し
ており,その世代数までに発見した最も良いベイジア
ンネットワークモデルの AIC の値を示している. 図 5
によると学習率が低いほど収束が緩やかになる傾向が
あることがわかる.
PBIL-RS が 500 世代で最終的に探しだしたベイジア
ンネットワークモデルの AIC の値が,学習率によって
どのように変化したかを図 6 に示す. この結果から,
求まった AIC は,学習率が低いことがわかる.図 6 の
縦軸の AIC の値は試行回数 30 回の平均値である.
図 6 の結果を図 5 の結果とあわせて考察すると,学習
率が低いほど収束する速度は緩やかであるが,最終的
に得られるベイジアンネットワークモデルは優れてい
る.すなわち,学習率は世代数とのバランスによって
最適な値が決まることがわかる.
4.4 探索領域の拡大幅による影響
探索領域の拡大範囲によって得られるベイジアン
ネットワークモデルがどの程類似しているかを評価す
る.評価方法としては,確率ベクトル P の収束箇所に
着目し,収束箇所の類似度を評価する.PBIL-RS が収
束したと判断した確率ベクトル P を 0,1 のビット列
とみなす.複数の収束箇所を組み合わせ,それぞれの
組みについて,ハミング距離を求める.ハミング距離
の値が小さいほど,求めたベイジアンネットワークの
構造が類似していることを表す.図 7 は探索領域の拡
大幅別のハミング距離のばらつきを表す図である.箱
ひげ図は上髭の先端を最大値,下髭の先端を最小値と
し,箱の上辺を第 3 四分位数,箱の下辺を第 1 四分位
数とする.図 7 によると,探索領域の拡大幅が大きく
なるにつれて,それぞれ異なる得られるベイジアンネ
ットワークモデルが得られることがわかる.
次に探索の様子をみる.図 8 は左側の主縦軸が散布
図の AIC の更新幅を取り,右側の第二縦軸は折れ線で
示す収束度の値を表す.横軸は経過した世代数を表す.
また,主縦軸の AIC の更新幅は 1 つ前までの世代で算
8000
10000
12000
14000
16000
18000
20000
0 100 200 300 400 500
AIC
世代数
0.05 0.1 0.2 0.3
0.4 0.5 0.6 0.7
図 5 学習率別スコア遷移
8450
8550
8650
8750
0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7A
IC学習率
図 6 学習率別 AIC の値
出した最も良い値から,その世代までに算出した最も
良い値を減算した値である.図 8 によると PBIL-RS は
確率ベクトルが収束するたびに,適切に探索領域の拡
大を行い,優れたベイジアンネットワークを探しだし
ていることがわかる.また,一度探索領域の拡大をし
たあとで,AIC の値が更新される世代の収束度がいず
れも低い値をとることがわかる.
そこで,AIC が更新された時の収束度を図 9 に示す.
図 9 は縦軸が AIC の更新値を示し,横軸は探索した世
代における収束度を表す.探索領域の拡大を行った世
代から 1000 世代まで毎世代の AIC の更新値を求めて
グラフに描画した.パラメータは表 3.1 を用いて,試
行回数は 10 回で行った. 図 9 によると,収束度が
0.03~0.05 付近でのみ優れたベイジアンネットワーク
モデルを探し出し,AIC の値の更新が起こっており,
収束度と優れたベイジアンネットワークモデルが見つ
かることに関係があることがわかる.
4.5 探索領域の段階的拡大の効果
PBIL-RS は探索領域を拡大する大きさを段階的に大
きくしている.この動作の効果を調べるために,固定
幅に設定した PBIL-RS との性能比較を行う.使用した
パラメータを記述する.拡大幅の変動する PBIL-RS は,
表 3.1 のパラメータから,特定のモデルに特化しない
ため探索領域の拡大幅 S+H を 0.1 から 0.9 まで変動す
るように設定した.固定幅の PBIL-RS は, [0.1:0.9]の
範囲で最も性能が良い探索領域の拡大幅を用いて,最
大収束度の 0.5 に固定とした.また,どちらも世代数
は 4000 世代とし,試行回数はそれぞれ 30 回行った.
図 10 は探索領域の拡大幅を変動幅と固定幅で行い,
それぞれ最終的に得られるベイジアンネットワークモ
デルの AIC の値のばらつきを表す図である.箱ひげ図
は図 7 と同様である.また,外れ値を考慮し IQR
( interquartile range) と呼ばれる,第3四分位点から
第 1 四分位点を引いた値を用いた.小さい方の外れ値
は,第 1 四分位点-1.5×IQR 以下,大きい方の外れ値
は,第3四分位点+1.5×IQR 以上,としてデータから
除外している.また,平均値を斜め線の箱で示した。
図 10 によると,変動幅では得られる解のばらつき
が大きく,固定幅に比べて AIC の値が小さく,優れた
ベイジアンネットワークモデルが得られやすいことが
わかる. また,平均値をみると変動幅のほうが優れた
ベイジアンネットワークモデルを探しだしていること
がわかる.
また,図 11 に図 8 と同様の図を示した.図 11 によ
ると 1200 世代から 2400 世代にかけて探索領域を段階
的に拡大していくことで優れたベイジアンネットワー
クモデルを探しだしており,探索領域の段階的拡大が
効果的に働いている様子がわかる.
0
10
20
30
40
10 30 50 70 90
ハミング距離
探索領域の拡大幅
図 7 探索領域の拡大幅による
解の類似度のばらつき
図 8 探索領域の幅と AIC の更新幅
0
0.5
1
1
501
1001
0 500 1000
収束度
AICの更新値
世代数AICの更新値 収束度遷移
0
5
10
15
20
0 0.1 0.2 0.3 0.4
AICの更新幅
収束度
図 9 探索領域拡大後の収束度と AIC の更新幅
8440
8460
8480
8500
変動幅 固定幅
AIC
図 10 変動幅と固定幅の AIC の値のばらつき
0
0.2
0.4
0.6
0
200
400
600
800
1000
0 1000 2000 3000 4000
収束度
AICの更新値
世代数
AICの更新値 収束度遷移
図 11 収束度と AIC の更新幅,4000 世代
5. おわりに
本研究では,ベイジアンネットワーク構築アルゴリ
ズム PBIL-RS に対して詳細な評価を行った.既存手法
との比較評価では,37 ノードと 135 ノード規模のベイ
ジアンネットワーク構築において PBIL-RS が既存手法
と比較して最も優れたベイジアンネットワークモデル
を構築することが可能であることを示した.各種パラ
メータの影響評価では,パラメータの学習率は世代数
とのバランスによって適切な値が決まることがわかっ
た.また,優れたベイジアンネットワークモデルが探
しだされる収束度には,規則性があることが明らかに
なった. さらに,PBIL-RS の探索領域の拡大幅を段階
的に大きくする動作は,この性質を捉えて有効に働い
ていることを示した.
今後の課題は PBIL-RS がさらに数千ノードの規模
のベイジアンネットワーク構築でも有効であることを
示すこと,そして,AIC の更新と収束度の関係につい
て,より詳細な調査をし,PBIL-RS の改良に繋げるこ
とである.
参 考 文 献
[1] D.M. Chickering, D. Heckerman, C. Meek,
“Large-Sample Learning of Bayesian Networks is
NP-Hard ,” Journal of Machine Learning
Research, Vol.5, pp.1287-1330, 2004.
[2] G. F.Cooper, and E.Herskovits, “A Bayesian
method for the induction of probabilistic networks
from data.” Machine Learning, Vol.9, pp.
309-347, 1992.
[3] S Baluja: “ Population-Based Incremental
Learning: A method for integrating genetic search
based function optimization and competitive
learning” Technical Report CMU-CS-94-163,
Carnegie Mellon University ,1994.
[4] D.W. Kim, S. Ko, and B.Y. Kang,
“ Structure Learning of Bayesian Networks by
Estimation of Distribution Algorithms with
Transpose Mutation ,” Journal of Applied
Research and Technology, Vol.11, pp.586– 596,
2013.
[5] R. Blanco, I. Inza, P. Larrañaga, “Learning
Bayesian Networks in the Space of Structures by
Estimation of Distribution Algorithms ,”
International Journal of Intelligent Systems, Vol.
18, pp.205–220, 2003.
[6] 福田 翔,吉廣 卓哉,“遺伝的アルゴリズムに
よる確率学習に基づいたベイジアンネットワ
ークモデル構築手法”和歌山大学大学院コミュ
ニケーション科学クラスタ修士論文 2014.
[7] H.Akaike, “ Information theory and an extension
of the maximum likelihood principle ”,
Proceedings of the 2nd International Symposium
on Information Theory,pp.267-281,1973.
[8] S.Fukuda, Y.Yamanaka, and T.Yoshihiro,
“ A Probability-based Evolutionary Algorithm
with Mutations to Learn Bayesian Networks,”
International Journal of Artificial Intelligence and
Interactive Multimedia, Vol.3,No.1,pp.
7-13,2014.
[9] W.H. Hsu, H. Guo, B.B. Perry, and
J.A. Stilson,A permutation genetic algorithm for
variable ordering in learning Bayesian networks
from data In Proceedings of the Genetic and
Evolutionary Computation Conference (GECCO),
2002.
[10] O.Barrière, E. Lutton, P.H. Wuillemin,
“ Bayesian Network Structure Learning using
Cooperative Coevolution,” In Proceedings of the
Genetic and Evolutionary Computation
Conference (GECCO), pp.755-762, 2009.
[11] A.P.Tonda, E. Lutton, R. Reuillon, G.
Squillero, and P.H. Wuillemin, Bayesian
network structure learning from limited datasets
through graph evolution, In Proceedings of the
15th European conference on Genetic
Programming (EuroGP’12), pp.254-265, 2012.
[12] H . Handa , “ Estimation of Distribution
Algorithms with Mutation ,” Lecture Notes in
Computer Science, Vol.3448, pp.112-121,
2005.
[13] I.A. Beinlich, H.J. Suermondt, R.M. Chavez, G.F.
Cooper : The ALARM Monitoring System: A Case
Study with Two Probabilistic Inference
Techniques for Belief Networks. In: Second
European Conference on Artificial Intelligence in
Medicine, Vol. 38, pp.247–256,1989.
[14] D.E. Heckerman, E.J. Horvitz, B.N. Nathwani
Towards normative expert systems: part I — the
Pathfinder project Methods of Information in
Medicine, pp. 90–105,1992.
[15] 繁枡算男 , 植野真臣 , 本村陽一: ベイジアンネ
ットワーク概説 , 培風館 2006.