probabilistic graphical models 輪読会 #1

Probabilistic Graphical Models

輪読会 #1

概論

16/05/14

東京工業大学 4年

八木拓真(@t_Signull)

Probabilistic Graphical Models 輪読会 #1 1

自己紹介


八木拓真

東京工業大学情報工学科 4年

統計的パターン認識、動画認識

WBA若手の会関東支部代表

興味の方向：AGIの工学的実現

去年やった研究：

『人物動作系列からの「動作素」の自動抽出』

@t_Signull

今回読む本

D.Koller & N. Friedman

Probabilistic Graphical Models:

Principles and Techniques

(2009)

• グラフィカルモデルの00年代までの進展を取り纏めた名著

• Coursera創設者、Daphne Koller先生らが執筆

• 1200ページという圧巻の分量に加え、多量のtypoと非直感的な数式が我々を苦しめる


グラフィカルモデル


マルコフ確率場多項式回帰

HDP-HMM

LDA(Latent Dirichlet Allocation)

4

グラフィカルモデル


ロボットの言語獲得のモデル [Taniguchi+ 15]

グラフィカルモデルでない


ニューラルネットワーク

決定木

0.8

0.2

0.8 0.2

状態遷移図

なぜグラフィカルモデル？

Probabilistic Graphical Models 輪読会 #1

言語処理

7

統計学

統計分析

符号理論

コンピュータビジョン

グラフ理論

機械学習

1つの学問分野に囚われない、普遍の理論

統計的因果推論認知科学人工知能

今日の内容

• 第1章 Introduction

– 本書の構成

– GMの3要素

• 第2章 Foundations

– 確率論

– グラフ理論

• グラフィカルモデル概観

– ベイジアンネットと無向グラフィカルモデル

– ベイジアンネット(BN)入門


第１章 Introduction


今日の内容


– 本書の構成

– GMの3要素


– 確率論

– グラフ理論





動機(1.1)

• 多くのタスク(作業)は、推論能力を必要とする

• 推論(reasoning)とは、(多くの場合限られた)情

報からある結論を導くこと

• 例えばロボットは、様々な種類のセンサ情報か

ら自らがどの地点にいるのかを把握し、障害物

と衝突しないようにゴールに向かう軌道を考え

なければならない

→決定的なプログラムで書けなくはないが、しば

しば柔軟性・汎用性に欠ける


本書のアプローチ

• 本書では、問題の解決を知識(の表現)と推論の2段階に分離→宣言的(declarative)表現の導入

• タスク別に宣言的表現さえ導入すれば、その推論はドメイン非依存で行えるのではないか

→知識と推論の分離


宣言的表現

𝑋1 𝑋2

𝑋3 𝑋4

実世界の問題

共通の推論アルゴリズム

不確定性(Uncertainty)を扱う

• 実世界において不確定性は原則回避できない

• 私たちが観察から得る情報はしばしば

(1) 不完全で

(2) ノイズが混じっていて

(3) 情報同士の関係性はさらに不明瞭

である

• 不確定性は、私たちが不完全な観察、不完全なモデル化しかできないことによって引き起こされる

→私たちが結論を下すためには、複数の可能性を考え、かつその中で最も可能性の高いものを推論する必要がある


確率を使う

• 不確定性を扱うにはどうしたらいい？

→確率論(probability theory)の利用

• 例外的な事象を、小さい確率を割り当てることで表現できる


ルール1

ルール2

ルール3

例外? ?

?

事象A

事象B

事象C

あまり起き

ないこと

例外も他のルールと平等例外的な事象は重要ではない

構造化グラフィカルモデル(1.2)

ここで、医療診断システムを考えよう：

• 病名、症状、患者の状態/特性などの情報には

それぞれ確率変数(random variable)が割り当てられる

• 確率変数には、0/1などの離散値あるいは連続値が格納され、「インフルエンザである/ない」、「体温が37.5℃である」などの意味を持つ

• グラフィカルモデル(GM)を構成するこれらの確率変数にどのような意味や値を与えるかは、我々の行いたいタスクによって変化する


• 私たちの目標：観測情報が与えられた下で、1つまたは複数の確率変数について確率的に推論すること

• そのためには、私たちは確率変数の集合Χ(カイ)における全ての可能な割り当てを表す結合分布(joint probability distribution)を構築する必要がある

• 結合分布を得ることで、ある確率変数𝑋𝑖が𝑥𝑖であったときの事後分布(posterior distribution)を計算できる


構造化グラフィカルモデル(1.2)

例1.1：インフルエンザと花粉症

• 簡単な医療診断の例として、2つの病気と2つの症状、1つの環境変数を考える

(1)インフルエンザである/ない

(2)花粉症である/ない

(3)充血がある/ない

(4)筋肉痛がある/ない

(5)季節がいつであるか(春/夏/秋/冬)

Q：この確率空間はどの程度広い？

A：2×2×2×2×4＝64通り


確率的グラフィカルモデル(1.2.1)

• 先の医療診断の例では64通りの値をとりうることがわかったが、それはしばしば骨が折れる種類数である

• 一般的な医療診断では数百もの疾患・症状を扱うため、プログラムはすぐさま計算量爆発を起こし扱えなくなってしまう(e.g. 2100通り)

→もっとコンパクトに分布を表現したい

• 確率的グラフィカルモデルはグラフ構造を基本として、高次元空間の複雑な分布をコンパクトに表現できる


例1.1再訪

• 右下図のようなグラフ構造を仮定：

• 例えば、現在の季節が直接充血や筋肉痛と結びつかなくなっている(因果関係の導入)

• このグラフには双対(裏返し)な2つの視点がある：

(1)グラフは独立性の集合を現している

(2)グラフは高次元分布に構造を与え、いくつかの因子(factor)に分解する

グラフを与えたことで、

64通り→18通り

(冗長でなくなった！)


GMの等価な表現


グラフによる表現

(graph representation)

𝐹 ⊥ 𝐻 𝑆)

𝐴 ⊥ 𝐶 𝐵, 𝐷)

(条件付き)独立性

(independencies)

𝑃 𝐹, 𝑆 = 𝑃 𝑆 𝑃(𝐹|𝑆)

𝑃 𝐴, 𝐵, 𝐶 =1

𝑍𝜙1 𝐴, 𝐵 𝜙2 𝐶, 𝐷

因子分解

(factorization)

表現、推論、学習(1.2.2)

GMの三大要素：表現、推論、学習

(1) 表現：結合分布𝑝(𝑥1, … , 𝑥𝑁)がどのような構造によって

表現されるか

→グラフ表現は(そのサイズにかかわらず)明瞭かつ取扱い

が容易

(2) 推論：観測が与えられた際の事後確率𝑝(𝑋|𝐷)の確率を

効率よく計算する

(3) 学習：専門家の知識またはデータ自身から、ふさわし

い予測をするためのパラメタを学習する

→PGMはデータ駆動(data-driven)な学習を可能にする


GMで知的なシステムを作る

• 表現、推論、学習は知的なシステムを作るうえで不可欠な要素である。なぜなら：

(1) 私たちは、自らの世界を記述する宣言的記述を表現・用意する必要がある

(2) 私たちはこの表現を様々な質問に答えられるよう利用できるようにしなくてはならない

(3) 専門家の知識と蓄積されたデータを利用して、適切な分布を獲得しなければならない

GMは小さいながらこれら3つの能力を全て兼ね備えた理想的なモデルの1つなのだ！


視覚的表現としてのGM


GMは数式を読み替えた視覚的表現であり、実はGMを用いずとも議論を進めることはできる！

• (一般化された)機械学習における「学習」：

変数𝑥1, … , 𝑥𝑛とラベル𝑦があるとき、

𝑝(𝑦, 𝑥1, 𝑥2, … , 𝑥𝑛, )をデータ𝑋 1 , 𝑋 2 , … , 𝑋 𝑁 から推定する

• 機械学習における「予測」または「推論」

𝑦∗ = 𝑎𝑟𝑔𝑚𝑎𝑥𝑦𝑝 𝑦 𝑥1∗, 𝑥2

∗, … , 𝑥𝑛∗)

ただ、数式だけで進めるのはしんどい→表現方法としてのGM

本書の概観(1.3.1) • Part I: 表現(Representation)

3, 4章：GMの基本形、5, 6, 7章：その拡張

後半は特に実世界データに頻出する構造を扱う

• Part II: 推論(Inference)

9, 10章：厳密推論、11・12章：近似推論

• Part III：学習(Learning)

16、17章：GMの学習の基本

18章：BNの構造学習

19、20章：より難しいGMの学習

• Part IV：行動と決定(Actions and decisions)

21、22、23章：意思決定のためのGM


ロードマップ(1.3.2)


他の分野との関係(1.3.3)

• GMは、多数の分野からの知見を輸入しつつ今日まで発展してきている

例1：初期のベイジアンネットワークの研究は、家族間の遺伝子の継承というごく狭い領域の研究から生起した

例2：無向グラフィカルモデルは、物理学における電子の系のモデリングとして定式化された

例3：GMの主要なアルゴリズムである確率伝搬法と、確率的な符号の一種であるLDPC符号のアルゴリズムの等価性が指摘された


GMの大家：Judea Pearl

• Judea Pearl(1936-)

• 計算機科学者・哲学者

• 2012年チューリング賞受賞

• 人工知能および因果的推論への確率的な手法を大きく発展させ、確率的手法の今日の地位を築き上げた研究者の1人

特にGMにおいては、歴史的背景の理解も重要となる


第２章 Foundations


今日の内容


– 本書の構成

– GMの3要素


– 確率論

– グラフ理論





確率論(2.1)

• この本は、最初から最後まで確率分布を使います

• 確率論の復習をしましょう

• 定義/命題等は教科書に従います


事象空間(2.1.1.1)

• 確率を扱うためには、何に確率を割り当てるのかを定める必要がある

• そこで、可能な結果(possible outcome)の空間

(space)を仮定し、それをΩと書く

→例えばサイコロの出目ならΩ = 1, 2, 3, 4, 5, 6


事象空間(2.1.1.1)

• さらに、可測な事象(measurable events)𝑆を用意し、そこに確率を割り当てる

• そのうえで、事象𝛼 ∈ 𝑆(event)を考える。例えば、

事象{6}はサイコロの目が6を指す

と考えることができる

• 事象は次の3条件を満たす：

(1) 空事象𝜙及び自明な(trivial)事象Ωが存在

(2) 和事象に関して閉じている(𝛼, 𝛽 ∈ 𝑆 ⇒ 𝛼 ∪ 𝛽 ∈ 𝑆)

(3) 補集合に関して閉じている(𝛼 ∈ 𝑆 ⇒ Ω − 𝛼 ∈ 𝑆)


事象空間Ω

{1, 2, 3}

可測な事象𝑆

{𝜙, 1 , 2 , 3 , 1,2 , 1,3 , 2,3

, Ω}

確率分布(2.1.1.2)

定義2.1(確率分布)

(Ω, 𝑆)上の確率分布𝑃とは、以下の条件を満たす𝛼 ∈ 𝑆からℝへの写像である：

• 𝑃 𝛼 ≥ 0 𝑓𝑜𝑟 𝑎𝑙𝑙 𝛼 ∈ 𝑆.

• 𝑃 Ω = 1.

• 𝐼𝑓 𝛼, 𝛽 𝑎𝑛𝑑 𝛼 ∩ 𝛽 = ∅, 𝑡ℎ𝑒𝑛 𝑃 𝛼 ∪ 𝛽 = 𝑃 𝛼 + 𝑃 𝛽 .

3番目の条件は、背反な事象の和集合の確率はそれぞれの確率の和であることを示している


確率の解釈(2.1.1.3)

• 確率分布の議論を進める前に、(直感的に)確率に何を割り当てるべきなのか、考えよう

歴史的に、確率の解釈には2つのパラダイムがある：

(1) 頻度主義(frequentist interpretation)

(2) 主観的確率(subjective interpretation)


頻度主義(frequentist)

• 確率とは：事象の起こる回数(頻度)

• 例えば、サイコロを振る例を考えて、

𝑃 1, 3, 5 = 0.3

ならば、サイコロを繰り返し振り続けた結果、私たちが1, 3, 5の目を出した頻度の極限が0.3であったということになる(無限回の試行を仮定)

サイコロの目やコイン投げなら良いが…

→明日雨が降る確率は？(明日は1度しか来ない！)


主観的確率 • 繰り返し試行できない事象は、頻度主義のパラダイ

ムでは説明できなかった

• そこで主観的確率では、確率を

信念(belief)の主観的度合い

として取り扱う

• ゆえに、”明日雨が50％の確率で降る”とは、この発言者の不確定性に対する主観的な判断を表し、これは周辺情報の観測によって更新される

• では、なぜ人の信念と確率が結びつくのか？

→著者曰く：合理的な行動は確率論に従うから


条件付き確率(2.1.2.1)

• 例：ある生徒の集合と、彼(彼女)らがgrade Aをとったという事象𝛼が与えられたときに、彼らが真に知性を持ちうるという事象𝛽に関する信念はどう変化するか？

→一見、𝑃(𝛼 ∩ 𝛽)をとれば良い様に思うが、これでは信念の”変化“を測定できない

条件付き確率：𝑃 𝛽 𝛼 =P 𝛼∩𝛽

𝑃 𝛼 (2.1)

※𝑃 𝛼 = 0の場合条件付き確率は定義されない


連鎖規則(chain rule)

• 条件付き分布の定義から、次の式を見出す： 𝑃 𝛼 ∩ 𝛽 = 𝑃 𝛼 𝑃 𝛽 𝛼 2.2

• これを一般の事象𝛼1, … , 𝛼𝑘に適用すると、

𝑃 𝛼1 ∩ ⋯∩ 𝛼𝑘= 𝑃 𝛼1 𝑃 𝛼2 𝛼1 …𝑃 𝛼𝑘 𝛼1 ∩ ⋯∩ 𝛼𝑘−1 . (2.3)

これは、あらゆる結合分布(後述)および変数の順序に成り立つ普遍の性質である(有向GMの分解と混同しないこと)


ベイズの規則(Bayes rule)

• 条件付き確率からベイズの規則も導出できる：

𝑃 𝛼 𝛽 =𝑃 𝛽 𝛼 𝑃 𝛼

𝑃 𝛽 (2.4)

• 一般の場合のベイズの規則は背景事象𝛾を用いて、

𝑃 𝛼 𝛽 ∩ 𝛾 =𝑃 𝛽 𝛼 ∩ 𝛾 𝑃 𝛼|𝛾

𝑃 𝛽|𝛾

と書ける


例2.1,2.2

• 2.1(生徒の成績)

• 2.2(結核のTBテスト)

(その場で計算)


確率変数と結合確率(2.1.3)

• ここまで、確率分布を事象と結びつけて話してきた

→e.g. “サイコロで5が出る”

• しかし、私たちは事象のほかに、属性(attribute)をの確率を考えたい場合がある

→e.g. “55歳以上” “喫煙歴がある/ない”

• 事象ベースで議論を進めることはできるが、数学的に明確な定義で今後の話を進めたい

→確率変数(random variable)の導入


確率変数とは何か？(2.1.3.2)

• 確率変数とは、各事象𝛼 ∈ Ωからℝへの写像

• 例えば、”生徒のgrade=A”という事象は

𝜔 ∈ Ω ∶ 𝑓𝑔𝑟𝑎𝑑𝑒 𝜔 = 𝐴

とかける

(注)実際にはA=0, B=1, …などの値が割り当てられる

• 確率変数は、通常離散変数または連続変数を取りうる

• 𝑉𝑎𝑙(𝑋)：確率変数𝑋が取りうる値の集合


確率変数の割り当てと略記

• 確率変数の集合として𝑿, 𝒀, 𝒁(太字)、各変数への具体的な値の割り当てを𝒙, 𝒚, 𝒛とする

• 𝒙 ∈ 𝑿, 𝒀 ⊆ 𝑿に関して、𝒙 𝒀 をYに対する𝒙の割り当てと表すことにする

• 𝒙 ~ 𝒚 ≝ 𝒙 𝑿 ∩ 𝒀 = 𝒚 𝑿 ∩ 𝒀

→例えば、𝒙 = {𝑥1 = 2, 𝑥2 = 3, 𝑥3 = 4} のうちの一部の割り当てのみを使いたい時に用いる

• いちいち𝑃( 𝑋 = 𝑥 ∩ 𝑌 = 𝑦 )などと書くのは面倒なので、これを略記して𝑃(𝑥, 𝑦)などと表す


周辺分布(2.1.3.3)

• 確率変数𝑋に関する分布𝑃(𝑋)を𝑋上の周辺分布(marginal distribution)と呼ぶ

• これは、確率の定義2.1に従い、唯一の違いは可測な事象𝑆が確率変数𝑋に置き換えられたことである

e.g. 𝑃 𝐼𝑛𝑡𝑒𝑙𝑙𝑖𝑔𝑒𝑛𝑐𝑒 = ℎ𝑖𝑔ℎ = 0.3, P 𝐼𝑛𝑡𝑒𝑙𝑙𝑖𝑔𝑒𝑛𝑐𝑒 = 𝑙𝑜𝑤 = 0.7.


結合分布(2.1.3.3)

• 1つの確率変数𝑋だけではなく、複数の確率変数𝜒 = { 𝑋1, … , 𝑋𝑁 }上の結合分布(joint distribution)を考えたい

→𝑃(𝑋1, … , 𝑋𝑁)と表記し、複数の事象が同時に生起する確率を割り当てる

• 結合分布は、周辺分布との整合性を取る必要がある

𝑃 𝑥 = 𝑃(𝑥, 𝑦)

𝑦


条件付き確率再訪(2.1.3.4)

• 事象ではなく確率変数を用いて条件付き確率を書き直すと、

𝑃 𝑋 𝑌 =𝑃 𝑋, 𝑌

𝑃 𝑌.

𝑃 𝑋1, … , 𝑋𝑘 = 𝑃 𝑋1 𝑃 𝑋2 𝑋1)…𝑃 𝑋𝑘 𝑋1, … , 𝑋𝑘−1 .

𝑃 𝑋 𝑌 =𝑃 𝑋 𝑃 𝑌 𝑋

𝑃 𝑌.


独立性(2.1.4.1)

• 通常、私たちは𝑃(𝛼|𝛽)と𝑃(𝛼)は何らかの点で異なると考えたくなる

• しかし、ある状況ではこの2つが一致する、即ち𝛽を学ぶことが𝛼の確率に関して何ら影響を与えない場合がある

定義2.2(独立な事象, independent events)

𝑃 𝛼 𝛽 = 𝑃(𝛼)または𝑃 𝛽 = 0が成り立つとき、事象𝛼と事象𝛽が独立であると言い、𝑃 ⊨ (𝛼 ⊥ 𝛽)と書き表す


独立性(2.1.4.1)

• 独立性は、別の定義によっても与えられる：

命題2.1(独立性の別定義)

分布𝑃が(𝛼 ⊥ 𝛽)を満たす⇔ P 𝛼 ∩ 𝛽 = 𝑃 𝛼 𝑃 𝛽

証明:

連鎖規則を用いる


条件付き独立(CI)(2.1.4.2)

• 独立性は、しばしば追加の事象が与えられたときに初めて発現する

→例：MIT is CI of Stanford given GradeA.

定義2.3(条件付き独立, conditional independence)

𝑃 𝛼 𝛽 ∩ 𝛾 = 𝑃 𝛼 𝛾 または𝑃 𝛽 ∩ 𝛾 = 0のとき、分布𝑃上で事象𝛼と𝛽は𝛾が与えられた際に条件付き独立であるといい、 𝑃 ⊨ (𝛼 ⊥ 𝛽|𝛾)と書き表す

以下、本スライドでは条件付き独立をCIと記す


条件付き独立(CI)(2.1.4.2)

• 条件付き独立もまた、別の方法で定義可能：

命題2.2

分布𝑃が 𝛼 ⊥ 𝛽 𝛾 を満たす

⇔ P 𝛼 ∩ 𝛽|𝛾 = 𝑃 𝛼|𝛾 𝑃 𝛽|𝛾

証明：

命題2.1と同様


複数の確率変数の独立性(2.1.4.3)

定義2.4

𝑿, 𝒀, 𝒁をそれぞれ確率変数の集合とする。もし𝑃があ

らゆる𝒙 ∈ 𝑉𝑎𝑙 𝑿 , 𝒚 ∈ 𝑉𝑎𝑙 𝒀 , 𝒛 ∈ 𝑉𝑎𝑙(𝒁)において

𝑿 = 𝒙 ⊥ 𝒀 = 𝒚 𝒁 = 𝒛)を満たすならば、𝒁が与えら

れた下で𝑿と𝒀が独立であるという。𝒁はしばしば”観

測された”と呼ばれる。𝒁が空であるとき、

𝑿 ⊥ 𝒀 ∅)を(𝑿 ⊥ 𝒀)と記述し、𝑿と𝒀は周辺的に独

立であるという。

命題2.3

分布𝑃が 𝑿 ⊥ 𝒀 𝒁)を満たす

⇔𝑃 𝑿, 𝒀 𝒁) = 𝑃 𝑿 𝒁 𝑃 𝒀 𝒁 Probabilistic Graphical Models 輪読会 #1 51

CIの性質(2.1.4.3)

• 対称性(Symmetry) 𝑿 ⊥ 𝒀 𝒁) ⇒ 𝒀 ⊥ 𝑿 𝒁).

• 分解性(Decomposition) 𝑿 ⊥ 𝒀 𝑾, 𝒁) ⇒ 𝑿 ⊥ 𝒀 𝒁).

• 弱結合性(Weak union) 𝑿 ⊥ 𝒀,𝑾 𝒁) ⇒ 𝑿 ⊥ 𝒀 𝒁,𝑾).

• 縮約性(Contraction) 𝑿 ⊥ 𝑾 𝒁, 𝒀)& 𝑿 ⊥ 𝒀 𝒁) ⇒ 𝑿 ⊥ 𝒀,𝑾 𝒁).


正値確率分布

定義2.5(正値確率分布)

Pが正値であるとは、𝛼 ≠ ∅である全ての事象𝛼 ∈ 𝑆において𝑃(𝛼) > 0であることである

正値確率分布に対しては、以下の性質が成り立つ

• 交差性(Intersection) 𝑿 ⊥ 𝒀 𝒁,𝑾)& 𝑿 ⊥ 𝑾 𝒁, 𝒀) ⇒ 𝑿 ⊥ 𝒀,𝑾 𝒁).

証明：乗法定理と加法定理を繰り返し適用する


クエリ(2.1.5)

• 私たちの目標は、ある変数の集合が観測されたときに、注目するクエリ(query of interest)の確率を評価することである

• 本書では、2種類のクエリを紹介する

(1)確率クエリ(Probability Queries)

(2)MAPクエリ(MAP Queries)


確率クエリ(2.1.5.1)

確率クエリは2つのパーツから構成される：

(1)エビデンス：確率変数群の部分集合𝐸と、実際の割り当て値𝑒

(2)クエリ変数：ネットワーク中の確率変数群の部分集合𝑌

私たちが考えたいのは、エビデンス𝑒 ∈ 𝐸で条件付けられたときの𝑦 ∈ 𝑌に関する事後確率(posterior probability)である。


MAPクエリ(2.1.5.2)

MAP=Maximum A Posteriori (最大事後確率)

• 続いて考えたいのは、ある確率変数の部分集合に対して、最大の事後確率を得る割り当てを見つけることである

• よりフォーマルに言えば、𝑾 = 𝜒 − 𝑬であるとき、エビデンス𝐸 = 𝑒が与えられた状況で最大確率をとる𝑤 ∈ 𝑊を見つけることである

𝑀𝐴𝑃 𝑾 𝐞 = argmaxwP(𝐰, 𝐞)


MAP割り当て

• 1変数へのMAP割り当ては簡単で、𝑃(𝐴|𝑒)を最大化するような割り当て𝑎を選択すればよい

• しかし、複数の確率変数のMAP割り当ては、

各個の変数を個別に最大化する割り当てでは結合確率の大域的な最大化は達成できない

ため、事後確率の同時最大化を要求する一般のMAP割り当ては本質的な難しさを抱えている


例2.4(MAP割り当て)

𝑎0 𝑎1

0.4 0.6


𝐴 𝑏0 𝑏1

𝑎0 0.1 0.9

𝑎1 0.5 0.5

𝑀𝐴𝑃 𝐴 = 𝑎1 𝑀𝐴𝑃 𝐴, 𝐵 = (𝑎0, 𝑏1)

∵

𝑃 𝑎0, 𝑏1 = 0.4 ∗ 0.9 = 0.36

𝑃 𝑎1, 𝑏∗ = 0.6 ∗ 0.5 = 0.3

周辺化MAPクエリ(2.1.5.3)

• 医療診断においては、最終的に推定したいのは ”ある病気である確率”のみで、その過程の症状の推定は重要ではない

• 未観測だが重要でない確率変数は全ての組み合わせについて和を取って周辺化(marginalize)する

MAP 𝐘 𝐞) = argmaxyP 𝐲 𝐞).

𝒁 = 𝝌 − 𝒀 − 𝑬としたときの周辺化MAPは、

MAP 𝐘 𝐞 ) = argmaxY P 𝐘, 𝐙 𝐞).

z

と表せる Probabilistic Graphical Models 輪読会 #1 59

連続値空間(2.1.6)

• ここまでの議論は全て確率変数が離散値、すなわち有限の数の集合をとる場合であった、連続値の場合はどうか？

• 例えば、Val X = 0, 1 とした場合、 𝑃 𝑋 = 0 = 0.

となる、どうする？→確率密度関数(PDF)を用いる

𝑝 𝑥 𝑑𝑥 = 1.

𝑉𝑎𝑙(𝑋)

𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = 𝑝 𝑥 𝑑𝑥.𝑏

𝑎


一様/ガウス分布

定義2.6(一様分布)

[𝑎, 𝑏]における一様分布𝑋 ~ 𝑈𝑛𝑖𝑓[𝑎, 𝑏]のPDFは、

𝑝 𝑥 = 1

𝑏 − 𝑎 𝑏 ≥ 𝑥 ≥ 𝑎

0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒.

定義2.7(ガウス分布)

平均𝜇、分散𝜎2のガウス分布𝑋 ~ 𝑁(𝜇 ; 𝜎2)は、

𝑝 𝑥 =1

2𝜋𝜎𝑒−

𝑥−𝜇 2

2𝜎2

標準ガウス分布は平均0、分散1を持つ Probabilistic Graphical Models 輪読会 #1 61

結合密度関数(2.1.6.2)

定義2.8(結合密度関数)

連続確率変数𝑋1, … , 𝑋𝑛を考える。関数𝑝(𝑥1, … , 𝑥𝑛)が次の条件を満たすとき、𝑃を𝑋1, … , 𝑋𝑛の結合密度分布であると呼ぶ：・あらゆる𝑋1, . . , 𝑋𝑛中の𝑥1, … , 𝑥𝑛に対して𝑝 𝑥1, … , 𝑥𝑛 ≥ 0

・pは積分可能な関数

・あらゆる𝑎1, … , 𝑎𝑛, 𝑏1, … , 𝑏𝑛に対して

𝑃 𝑎1 ≤ 𝑋1 ≤ 𝑏1, … , 𝑎𝑛 ≤ 𝑋𝑛 ≤ 𝑏𝑛

= … 𝑝 𝑥1, … , 𝑥𝑛 𝑑𝑥1 …𝑑𝑥𝑛.𝑏𝑛

𝑎𝑛

𝑏1

𝑎1


条件付き密度関数(2.1.6.3)

• 条件付き確率を連続値に拡張する場合も、𝑃 𝑋 = 𝑥 = 0の問題が出現する

• そこで、𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖という微小区間を考え(これで確率が正の値をとる)、その極限を取ってみる

Q:lim𝜖→0

𝑃 𝑌 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖)

の極限は存在するか？


http://mathematica.stackexchange.com/questions/27083/visualization-of-bivariate-distributions を改変

http://mathematica.stackexchange.com/questions/27083/visualization-of-bivariate-distributions








条件付き密度関数の導出

Ａ：存在する

𝑃 𝑎 ≤ 𝑌 ≤ 𝐵 | 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖

=𝑃 𝑎 ≤ 𝑌 ≤ 𝐵, 𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖

𝑃(𝑥 − 𝜖 ≤ 𝑋 ≤ 𝑥 + 𝜖)

= 𝑝 𝑥′, 𝑦 𝑑𝑦𝑑𝑥′𝑥+𝜖

𝑥−𝜖

𝑏

𝑎

𝑝 𝑥′, 𝑦 𝑑𝑥′𝑥+𝜖

𝑥−𝜖

.

ここで、 𝑝 𝑥′ 𝑑𝑥′ ≈ 2𝜖𝑝(𝑥)𝑥+𝜖

𝑥−𝜖と近似できることから

(左辺) ≈ 2𝜖𝑝 𝑥,𝑦 𝑑𝑦𝑏𝑎

2𝜖𝑝 𝑥=

𝑝 𝑥,𝑦

𝑝(𝑥)𝑑𝑦.

𝑏

𝑎


条件付き密度関数/CI

定義2.9(条件付き密度関数)

𝑝 𝑥, 𝑦 を𝑋, 𝑌の結合密度であるとすると、𝑋が与えられたと

きの𝑌の条件付き密度関数は

𝑝 𝑦 𝑥) =𝑝 𝑥, 𝑦

𝑝(𝑥).

ただし𝑝 𝑥 = 0のときは未定義。

定義2.10(CI)

連続確率変数の集合𝑿, 𝒀, 𝒁および結合密度𝑃(𝑿, 𝒀, 𝒁)がある

とき、以下が成り立てば、

𝑝 𝒙 𝒛) = 𝑝 𝒙, 𝒚 𝒛) 𝑓𝑜𝑟 𝑎𝑙𝑙 𝒙, 𝒚, 𝒛 𝑠. 𝑡. 𝑝 𝒛 > 0.

𝑿は𝒁が与えられたときに𝒀と条件付き独立であるという


期待値(2.1.7.1)

• 離散確率変数に対する期待値

𝐸𝑃 𝑋 = 𝑥 ∙ 𝑃 𝑥 .

𝑥

• 連続確率変数に対する期待値

𝐸𝑃 𝑋 = 𝑥 ∙ 𝑝 𝑥 𝑑𝑥.

• しばしば、次の関数が用いられる：

𝐼 𝑋 = 𝑥 = 1 𝑖𝑓 𝑋 = 𝑥 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒.

(指示関数)


期待値の性質

命題2.4(期待値の線形性) 𝐸 𝑋 + 𝑌 = 𝐸 𝑋 + 𝐸 𝑌 .

これは、変数が独立でない場合も成り立つ。

命題2.5(期待値の独立性)

もし確率変数𝑋と𝑌が独立ならば、 𝐸 𝑋 ∙ 𝑌 = 𝐸 𝑋 ∙ 𝐸 𝑌 .

また、𝒚が与えられたときの𝑋の条件付き期待値は

𝐸𝑃 𝑋 𝑦] = 𝑥 ∙ 𝑃 𝑥 𝒚).

𝑥


分散(2.1.7.2)

分散：確率変数𝑋が平均からどれだけばらけているか 𝑉𝑎𝑟𝑃 𝑋 = 𝐸𝑃 𝑋 − 𝐸𝑃 𝑋 2 .

これを展開すると 𝑉𝑎𝑟 𝑋 = 𝐸 𝑋2 − 𝐸 𝑋 2.

命題2.6(分散と独立性)

もし𝑋と𝑌が独立であるならば、 𝑉𝑎𝑟 𝑋 + 𝑌 = 𝑉𝑎𝑟 𝑋 + 𝑉𝑎𝑟 𝑌 .

期待値の性質から、次が容易に導かれる： 𝑉𝑎𝑟 𝑎 ∙ 𝑋 + 𝑏 = 𝑎2𝑉𝑎𝑟 𝑋 .


標準偏差

また、標準偏差を次のように定義する：

𝜎𝑋 = 𝑉𝑎𝑟 𝑋 .

標準偏差は、𝑋の値の”距離”を測るための1つの目安として使用される

命題2.7(ガウス分布の性質)

𝑋をガウス分布𝑁(𝜇, 𝜎2)に従う確率変数とすると、𝐸 𝑋 = 𝜇かつ𝑉𝑎𝑟 𝑋 = 𝜎2である。


Chebyshevの不等式

定理2.1(Chebyshevの不等式)

確率変数𝑋、実数値𝑡が与えられたとき

𝑃 𝑋 − 𝐸𝑃[𝑋] ≥ 𝑡 ≤𝑉𝑎𝑟𝑃 𝑋

𝑡2

𝑜𝑟

𝑃 𝑋 − 𝐸𝑃[𝑋] ≥ 𝑘𝜎𝑋 ≤1

𝑘2

証明： 𝑋 − 𝐸𝑃 𝑋 ≤ 𝑡であることを用いる。

これは、平均及び分散を持つあらゆる確率分布に成り立つ


グラフ理論(2.2)

• 本書は、グラフ構造に確率分布の表現を導入する

• グラフ理論の基本概念をここで押さえましょう


ノードと辺(2.2.1)

• グラフ 𝐾 = (X, Ε)

• ノード 𝑋 = {𝑋1, … , 𝑋𝑛}

• 有向辺 𝑋𝑖 → 𝑋𝑗

• 無向辺 𝑋𝑖 − 𝑋𝑗

• 何らかの辺(≠双方向) 𝑋𝑖 ↔ 𝑋𝑗

本書では、一度に2つ以上の種類のエッジが接続することを想定しない

有向辺のみで構成される有向グラフを𝐺,

無向辺のみで構成される無向グラフを𝐻とする Probabilistic Graphical Models 輪読会 #1 72

𝑋1

𝑋2

𝑋3

𝑋2 − 𝑋3

𝑋1 → 𝑋2 𝐾

無向形(undirected version)

定義2.11(グラフの無向形)

グラフ𝐾 = (𝑋, 𝐸)が与えられたとき、その無向形は 𝐻 = 𝑋, 𝐸′ (但し、𝐸′ = 𝑋 − 𝑌 ∶ 𝑋 ↔ 𝑌 ∈ 𝐸

である。


𝑋1

𝑋2

𝑋3 𝑋2 − 𝑋3

𝑋1 → 𝑋2 𝐾

𝑋1

𝑋2

𝑋3 𝑋2 − 𝑋3

𝑋1 − 𝑋2 𝐻

子/親/隣/次数/入次数

• 子(child), 𝐶ℎ𝑋

• 親(parent), 𝑃𝑎𝑋

• 隣(neighbor), 𝑁𝑏𝑋

• 次数(degree):

あるノードに接続する辺の数

• 入次数(indegree)：

あるノードに流入する辺の数


有向グラフ向け

主に無向グラフ向け

𝑋1

𝑋3

𝑋4 𝑋5

𝑋2 親

子

隣

誘導部分グラフ (induced subgraph)

定義2.12(誘導部分グラフ)

𝐾 = (Χ, Ε)および𝑿 ⊂ Χを考える。誘導部分グラフK[𝐗]をΕ′ = {∀𝑋 ↔ 𝑌 ∈ Ε ∶ 𝑋, 𝑌 ∈ 𝑿}であるようなグラフ(𝑿, Ε)とする。


𝐾[𝐶, 𝐷, 𝐼]

要は、ノードの部分集合の

接続を保存したグラフ

完全部分グラフ (complete subgraph)

定義2.13(完全部分グラフ)

𝑿上の部分グラフを考えたとき、𝑋中の全てのノードの組が辺で接続されているとき、𝑋は完全であるという。𝑋はクリークとも呼ばれる。さらに、その上位集合𝑌 ⊃ 𝑋がいずれもクリークでないとき𝑋は極大(maximal)であるという。


クリーク(clique)


クリーク(𝑐𝑙𝑖𝑞𝑢𝑒)：

ノード同士が全て隣接しているノードの集合

極大クリーク(𝑚𝑎𝑥𝑖𝑚𝑎𝑙 𝑐𝑙𝑖𝑞𝑢𝑒)：

クリーク性を保持する最大のクリーク

右図において、

{𝑥1, 𝑥2}はクリーク、

{𝑥2, 𝑥3, 𝑥4}は極大クリーク

バウンダリ(Boundary, P149)

• ノード𝑋の親(𝑌 → 𝑋が存在)および隣(𝑌 − 𝑋が存在)の和集合を𝑋のバウンダリと呼び、𝐵𝑜𝑢𝑛𝑑𝑎𝑟𝑦𝑋と表記する


Upward Closure

定義2.14(Upward Closure)

ノードの部分集合𝑿 ⊂ Χを考える。すべての

X ∈ 𝑿に関して𝐵𝑜𝑢𝑛𝑑𝑎𝑟𝑦𝑋 ⊂ 𝑿であるとき、𝑿 ⊂ ΧはKに関して上方向に閉じているという

𝐗を含み、上に閉じている極小の集合𝒀を𝑿のupward closureと呼び、𝐾+[𝑿]と書き表す


𝐾+[𝐶]

路とトレイル(2.2.3) 定義2.15(路, path)

グラフ𝐾 = (Χ, Ε)において、𝑋1, … , 𝑋𝑘が路であるとは、各𝑖 = 1,… , 𝑘 − 1に対して𝑋𝑖 → 𝑋𝑖+1または𝑋𝑖 − 𝑋𝑖+1 であることをいう。1つでも有向辺が含まれていれば、その路は有向であるという。

定義2.16(トレイル, trail)

グラフ𝐾 = (Χ, Ε)において、𝑋1, … , 𝑋𝑘が路であるとは、各 𝑖 = 1,… , 𝑘 − 1 に対して 𝑋𝑖 ↔ 𝑋𝑖+1 であることをいう。

定義2.17(連結グラフ)

各𝑋𝑖 , 𝑋𝑗間にトレイルがあるとき、グラフは連結である。 Probabilistic Graphical Models 輪読会 #1 80

先祖/子孫

• 先祖(ancestor)：𝐴𝑛𝑐𝑒𝑠𝑡𝑜𝑟𝑠𝑋

• 子孫(descendants):𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠𝑋

• 非子孫：𝑁𝑜𝑛𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠𝑋 = Χ − 𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠𝑋

例： 𝐴𝑛𝑐𝑒𝑠𝑡𝑜𝑟𝑠𝐼 = 𝐴, 𝐵, 𝐶, 𝐷, 𝐸, 𝐻 𝑁𝑜𝑛𝐷𝑒𝑠𝑐𝑒𝑛𝑑𝑎𝑛𝑡𝑠𝐷 = {𝐴, 𝐵, 𝐻}


Topological ordering

定義2.19(Topological ordering)

グラフK = (Χ, Ε)を考える。順序つきノード

𝑋1, . . , 𝑋𝑛がつねに𝑋𝑖 → 𝑋𝑗 ∈ Εならば𝑖 < 𝑗を満たすとき、𝑋1, … , 𝑋𝑛はtopological orderingであると呼ぶ。


親が子よりも必ず

小さい番号を持つようにする

(アルゴリズム：付録A.3.1)

トポロジカルソートとも呼ばれる

閉路(cycle)

定義2.20(閉路, cycle)

グラフ𝐾の閉路とは、𝑋1 = 𝑋𝑘であるような有向路𝑋1, … , 𝑋𝑘のことである。閉路を含まないグラフは非巡回(acyclic)と呼ばれる。


𝑋1

𝑋2

𝑋3 𝑋4

閉路(𝑋2, 𝑋3, 𝑋4)

☆DAG/PDAG

• 有向非巡回グラフ(DAG, directed acyclic graph)とは、その名のとおり有向かつ非巡回なグラフである

• DAGはベイジアンネットワークの表現の中心を為すグラフで、本書の大半は非巡回のグラフを取り扱う

• 部分有向非巡回グラフ(PDAG)を有向辺および無向辺が混在した非巡回グラフとする

※非巡回≠閉トレイルが存在


連鎖成分定義2.21(連鎖成分, chain component)

𝐾をΧ上のPDAGであるとする。Χの互いに素(disjoint)な分割𝐾1, … , 𝐾𝑙が

・𝐾𝑖の誘導部分グラフが有向辺を含まない

・𝑖 < 𝑗であるあらゆる組𝑋 ∈ 𝐾𝑖 , 𝑌 ∈ 𝐾𝑗について、辺が

存在するならば有向辺𝑋𝑖 → 𝑋𝑗

を満たすとき、各𝐾𝑖を連鎖成分と呼ぶ。


𝐾1 𝐾2

𝐾3 𝐾4

無向辺の塊をまとめて1つのノードとみなしてTopological

Ordering PDAGはChain Graphとも呼ぶ

ループ(Loop)/polytree

定義2.22(ループ/polytree)

𝐾上のループとは、X1 = Xkであるようなトレイル𝑋1, … , 𝑋𝑘のことである。グラフがループを含まないとき、”個別に連結している”という。

ループのないグラフ上で隣接ノードが1つしかないノードを葉(leaf)と呼ぶ。

ループのない有向グラフはpolytree、無向グラフは森(forest)と呼ばれる。それが連結していれば木(tree)と呼ばれる。


有向グラフにおける森/木

定義2.23(有向グラフにおける森/木)

各ノードがたかだが1つの親を持つ有向グラフを森と呼ぶ。もし有向森が連結であれば、木と呼ぶ。

※注意

有向グラフにおいては、木⊆森⊆polytreeである

(木・森は複数の親を許さない)

ループの存在は、多くの場合計算量を飛躍的に増大させる


Chordal(弦) Graph

定義2.24(Chordal graph)

ループ𝑋1 − 𝑋2 − ⋯− 𝑋𝑘 − 𝑋1を考える。ループを構成する非連続なノード2つによる辺をループ内の弦(chord)と呼ぶ。無向グラフ𝐻が𝑘 = 4以上のループおよびその弦を持つとき、𝐻はChordal Graphであると呼ぶ。

弦の概念は、推論の計算量を

見積もる際に利用される

※この定義は有向グラフにも拡張可(定義2.25)


𝑋1

𝑋2

𝑋3 𝑋4

𝑋5 弦

グラフィカルモデル概観

(3・4章に入る前の下準備)


今日の内容


– 本書の構成

– GMの3要素


– 確率論

– グラフ理論





グラフィカルモデル(GM) の基本原理


Michael Jordan (1997)曰く、

複雑なシステムを簡単に扱うための2つの原理：

(1)モジュラリティの原理

(2)抽象化の原理

「確率理論はこの2つの原理を深く、興味深い方法―因子分解と平均化によって提供している。この2つのメカニズムを可能な限り活用することが、機械学習を前進させる方法のように見える。」


• 具体的には、次のなじみ深い定理のこと

(1)加法定理(変数の消去、周辺化)

𝑝 𝑎 = 𝑝 𝑎, 𝑏

𝑏

(または 𝑝 𝑎, 𝑏 𝑑𝑏)

(2) 乗法定理(確率分布の因数分解)

𝑝 𝑎, 𝑏 = 𝑝 𝑏 𝑎 𝑝(𝑎)

グラフィカルモデル(GM) の基本原理

グラフィカルモデル(GM)の定義


グラフィカルモデルの簡単な定義：

• CIの仮定を置くことで、結合分布を表現する方法

• 各ノードが確率変数、辺の欠如がCIの仮定を表す

• Graphical Modelsという呼び方は適切ではなく、

意味を正確に表すならば”independence

diagrams”(独立ダイヤグラム)の方が良い

• エッジが向きを持つか否かで

(1) ベイジアンネットワーク(Bayesian Network)

(2) 無向グラフィカルモデル(Undirected GM)

に分けられる

(1)ベイジアンネットワーク(BN)


ベイジアンネットワーク(BN)とは、

対応するグラフがDAGであるGM

のことを指す(有向閉路が存在しない)

(1) Directed Graphical Model

(2) Belief networks

(3) Causal networks

などとも呼ばれるが、因果推論とGM自体は無関係なので、中立的にはDGMと呼ぶ方が望ましい

→本輪読会ではベイジアンネットワーク(BN)という呼称を使用する

BNの例：マルコフ連鎖


• 連鎖規則とマルコフ性の仮定を組み合わせて、

𝑝 𝒙1:𝑉 = 𝑝 𝑥1 𝑝(𝑥𝑡|𝑥𝑡−1)

𝑉

𝑡=1

と書き表すことができる。

• これを(1次の)マルコフ連鎖(markov chain)と呼ぶ。

BNの例：ALARM Network(1989)


• Alarm Network[Beinlich+ 89]：37変数と504の

パラメタを持つ医者向けの医療診断システム

• 計測変数と診断との間の因果関係とその確率表を専

門家の手で定義した確率的エキスパートシステム

(probabilistic expert system)として構成された

BNの例：遺伝リンク解析


Pedigree graph: 親子の関係(家系)を示すDAG

歴史的に重要なモデル [Friedman+ 00]

(1)遺伝子型𝑋𝑖𝑗 (観測済み)

(2)父系/母系対立遺伝子𝐺𝑖𝑗𝑚, 𝐺𝑖𝑗

𝑝 (未知)

(3)父母の選択変数 𝑍𝑖𝑗𝑚, 𝑍𝑖𝑗

𝑝 (未知)

の3つの構成要素を結んだBNとして構成し、何らかの疾患をもたらす遺伝子の遺伝経路を明らかにするためにBNによる推論を行う

BNの例：遺伝リンク解析


𝑋𝑖𝑗

𝐺𝑖𝑗𝑚 𝐺𝑖𝑗

𝑝

𝑧𝑖𝑗𝑚 𝑧𝑖𝑗

𝑝

𝐺𝑖𝑗𝑚

𝐺𝑖𝑗𝑝

𝑋𝑖𝑗


𝑝

𝑧𝑖𝑗𝑚

𝑧𝑖𝑗𝑝

𝑋𝑖𝑗


𝑝

𝑧𝑖𝑗+1𝑚

𝑧𝑖𝑗+1𝑝

選択変数𝑧は隣接箇所とリンク

Locus 𝑗 + 1 Locus 𝑗

観測されてい

るのは𝑋𝑖𝑗のみ

𝑧𝑖𝑗𝑝/𝑚

は母系と

父系どちらから遺伝したか選択

青の変数を観測した状態での

赤・オレンジの変数を予測

(2) 無向グラフィカルモデル(UGM)

無向グラフィカルモデルとは、

無向辺を用いたGM

のことを指す。BNと同様、

(1) Markov Network

(2) Markov Random Field(MRF)

などの別名がある。本書ではUGMという呼称を中心に使用する。


UGMの例：Izingモデル

• 統計物理学に端を欲したMRFの一種

• 格子状にノードが連結され、各ノードは+1(スピンが上向き)または-1(スピンが下向き)を持つ

• ある格子点上のスピンは隣接する格子点のスピンの値によって確率的に決定される

𝑃 𝑥 =1

𝑍exp ( 𝐽𝑖𝑗𝑥𝑖𝑥𝑗 + ℎ𝑖𝑥𝑖

𝑖

)

𝑖~𝑗

• 上記の形の分布はGibbs分布と呼ばれる


応用例：画像復元

• 2値画像の各ピクセルが格子状につながっている潜在変数に条件づけられていると仮定して、画像のノイズ除去を行う


元画像 10％反転復元結果

(グラフカット)

𝐸 𝑥, 𝑦 = ℎ 𝑥𝑖

𝑖

− 𝛽 𝑥𝑖𝑥𝑗𝑖,𝑗

− 𝜂 𝑥𝑖𝑦𝑖

𝑖

問題設定


次のような仮定を置いてみよう：

複数の互いに関連を持った変数を観測した

(文書、画像、遺伝子etc)

Question:

(1)結合確率𝑝 𝒙 𝜽 をコンパクトに表現するには？

(2)この確率を用いてある変数のセットから別の変数

のそれを現実的な計算量で推論(infer)するには？

(3)適度な量のデータがある状態でこの確率のパラメ

タを学習するには？

連鎖規則再訪


連鎖規則を用いて、我々はあらゆる結合分布を、あらゆる変数の順番を以て表現することができる

𝑝 𝒙1:𝑉 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥2, 𝑥1 …𝑝(𝑥𝑉|𝒙1:𝑉−1)

𝑉 ：変数の個数(1: 𝑉は集合{1,2, …𝑉}を表す)

定数パラメタ𝜃は簡単のため省略

𝑡が大きくなるにつれ、𝑝(𝑥𝑡|𝑥1:𝑡−1)の表現が複雑になる

結合分布の計算量


全ての変数が𝐾状態を持つと仮定すると、

• 𝑝 𝑥1 は𝑂 𝐾 厳密には𝑂 𝐾 − 1 個の表で離散分

布を表現できる

同様に、

• 𝑝(𝑥2|𝑥1)は𝑂 𝐾2 、𝑝(𝑥3|x1, x2)なら𝑂 𝐾3 個のパ

ラメタが含まれ、それらを表にしたものを条件

付き確率表(CPT)と呼ぶ

• 𝑝 𝒙1:𝑉 のテーブルの大きさは𝑂 𝐾𝑉 に従い、

学習は現実的ではない

BNの因子分解定理


• Topological orderingの仮定を置いたとき、各ノードがその直接の親のみに依存するというordered markov propertyを定義することができる。すなわち：

𝑥𝑠 ⊥ 𝒙𝑝𝑟𝑒𝑑 𝑠 ＼p𝑎 𝑠

|𝒙𝑝𝑎 𝑠

• DAG 𝐺(𝑉, Ε) がBNであるとは、確率分布族𝑿 = 𝑋𝑖 𝑖∈𝑉

と確率分布Pが以下に分解可能なことと同値：

𝑃 𝑿 = 𝑃 𝑋𝑖 𝑋𝑝𝑎 𝑖 )

𝑖∈𝑉

BNの因子分解


• PRMLの例を拝借(PRML下巻 8.1)

• 例えば、右記の結合分布は

𝑝 𝑥1, … , 𝑥7

= p x1 p x2 p x3 p x4 x1, x2, x3

p x5 x1, x3)p x6 x4 p(x7|x4, x5)

という条件付き分布(CPD)の積で表せる

𝑃 𝑿 = 𝑃 𝑋𝑖 𝑋𝑝𝑎 𝑖 )

𝑖∈𝑉

BNの計算量


• 先述の通り、一般の確率分布のパラメタ数は

𝑂(𝐾𝑉)であった

• DGMの各ノードが𝑂(𝐹)個の親と𝐾状態を持つと

き、そのパラメタ数は𝑂(𝑉𝐾𝐹)であり、CIの仮定

を置かない一般のそれよりパラメタ数が少ない

ことが確認できた

→続いて、BNの肝である条件付き独立(CI)とその

性質を見ていこう

BNの肝：条件付き独立性の仮定


• あらゆるグラフィカルモデルにおいて、条件付き独立の仮定(CI assumption)がその根幹を成す

• グラフGにおいてCが与えられたとき、AとBが独立であることを𝒙𝐴 ⊥𝐺 𝒙𝐵|𝒙𝐶と書く

• CIの仮定はモデル構造の簡略化に役立つが、GMの特異な点は次の点に見出すことができる：

CPDの積で表された同時分布を考えたとき、素朴にはその分布で考えられるすべてのCIをチェックする必要があるが、GMはCIをグラフ自身の見た目から簡単に読み取ることができる

グラフの見た目とCI


結合度が高い結合度が低い

CIの仮定が少ない CIの仮定が多い

続いての疑問：BNの確率変数の間には、実際には

どのようなCIが成り立つのか？

BNの基本パーツ


BNには、最もシンプルな形の構造が3種類ある

1. chain(head-to-tail) あるいは

indirect causal effect

2. tent(tail-to-tail) あるいは

a common cause

3. collider(head-to-head) あるいは

a common effect

Chain(head-to-tail)


𝑐が観測されると𝑎と𝑏は「遮断」され𝑎 ⊥ 𝑏 | 𝑐

1. 𝑐が未観測⇒𝑝(𝑎, 𝑏, 𝑐)を𝑐に関して周辺化する

2. 𝑐が観測⇒𝑝 𝑎, 𝑏 𝑐)を考える

ことで上記の性質を数式で表すことができて、実際に

𝑝 𝑎, 𝑏 = 𝑝 𝑎 𝑝 𝑐 𝑎 𝑝(𝑏|𝑐)𝑐 = 𝑝 𝑎 𝑝(𝑏|𝑎)(非独立)

𝑝 𝑎, 𝑏 𝑐) =𝑝 𝑎, 𝑏, 𝑐

𝑝 𝑐=

𝑝 𝑎 𝑝 𝑐 𝑎 𝑝 𝑏 𝑐

𝑝 𝑐= 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 (𝑐に関して条件付き独立)

Tent(tail-to-tail)


𝑐が観測されると𝑎と𝑏は「遮断」され𝑎 ⊥ 𝑏 | 𝑐

𝑝 𝑎, 𝑏 = 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 𝑝(𝑐)𝑐 (≠ 𝑝 𝑎 𝑝(𝑏)で非独立)

𝑝 𝑎, 𝑏 𝑐) =𝑝 𝑎, 𝑏, 𝑐

𝑝 𝑐= 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐

(𝑐に関して条件付き独立)

Collider (head-to-head)


𝑐が観測されないと𝑎と𝑏は「遮断」されているが、

𝑐が観測されると遮断が解かれる(前の2例と逆！)

𝑝 𝑎, 𝑏 = 𝑝(𝑎)𝑝(𝑏)𝑝(𝑐, 𝑎, 𝑏)𝑐 = 𝑝 𝑎 𝑝(𝑏) (独立)

𝑝 𝑎, 𝑏 𝑐) =𝑝 𝑎,𝑏,𝑐

𝑝 𝑐=

𝑝 𝑎 𝑝 𝑏 𝑝 𝑐 𝑎,𝑏

𝑝 𝑐 (非独立)

Bayes ballアルゴリズム


• Bayes ball algorithmは、Eが与えられたときAとBがd-分離(独立している)かどうかを判定するための簡単な方法である

• 観測済み変数𝑒 ∈ 𝐸をグレーに塗ったうえで、各𝑎 ∈ 𝐴にボールを置き、決められたルールでそのボールがBに到達できるかどうか調べられる


下3つは、ボールが「バウンド」する特殊な条件を示す

Bayes ballアルゴリズム

弁明(explaining away)


• Collider(head-to-head)が与えられたときの非常に

興味深い性質

• AとBの事象が共にCの親であるとき、Cが観測され

るとAとBは独立でなくなる

• その結果、Cの観測下では、

𝑝 𝑎 𝑐 ≠ 𝑝(𝑎|𝑐, 𝑏)

が成り立ち、本来関係ないはずのbの追加観測がaの条

件付き確率を「弁明(explain away)」し影響を与える

≠

遮断の練習

Q：どのノードを観測すればノード2とノード6が遮断されるか？

A：ノード1, ノード3, ノード5


今日のまとめ

• グラフィカルモデル(GM)は、ドメインに依存しない推論のための一般的かつ強力な手法である

• GMは、統計学およびグラフ理論をベースにしている

• ベイジアンネットワーク(BN)は、有向非巡回グラフに対するGMである

• BNには3つの基本的な構成部品がある

• GMによって、条件付き独立性(CI)を視覚的に捉えることができる


参考文献

◆論文

[Belinich+ 89] Beinlich, I. A., Suermondt, H. J., Chavez, R. M., & Cooper, G. F. (1989). The ALARM monitoring system: A case study with two probabilistic inference techniques for belief networks (pp. 247-256). Springer Berlin Heidelberg.

[Friedman+ 00] Friedman, N., Geiger, D., & Lotner, N. (2000, June). Likelihood computations using value abstraction. In Proceedings of the Sixteenth Conference on Uncertainty in Artificial Intelligence (pp. 192-200). Morgan Kaufmann Publishers Inc..

[Taniguchi+ 15] Taniguchi, T., Nakashima, R., & Nagasaka, S. (2015). Nonparametic Bayesian Double Articulation Analyzer for Direct Language Acquisition from Continuous Speech Signals. arXiv preprint arXiv:1506.06646.

◆書籍

D, Koller & N. Friedman, Probabilistic Graphical Models: Principles and Techniques, MIT Press, 2009.

K. Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

C. Bishop, Pattern Recognition and Machine Learning, Springer, 2006

渡辺有祐. 機械学習プロフェッショナルシリーズグラフィカルモデル, 講談社, 2016.

宮川雅巳. 統計的因果推論 –回帰分析の新しい枠組み-, 朝倉書店, 2004.

J. Pearl, 黒木学訳, 統計的因果推論モデル・推論・推測, 共立出版, 2009.


probabilistic graphical models 輪読会 #1

Technology