prml 1.3~1.6 ver3

76
w8prml 1.3 1.6 12/09/24 1

Upload: toshihiko-iio

Post on 07-Jul-2015

3.711 views

Category:

Documents


3 download

DESCRIPTION

12/09/25 w8prml 学習会 パターン認識と機械学習 上 1.3節~1.6節 申し訳ありませんが、字の大きさが変になって改行がおかしかったり、式に画像データを使ってる部分がぼやけ気味だったりします。 (9/25)いくつか再び訂正をしましたので再アップします。主な修正箇所は (P28)効用関数最小化→最大化 (P51) log(24)/log(3)=log(8)=3 → log(24)/log(3)=2.892789.... (P57) 右下枠内のエントロピー低・高が逆だったのを訂正。 ・・・以上となります。

TRANSCRIPT

Page 1: Prml 1.3~1.6 ver3

w8prml

1.3 – 1.612/09/24

1

Page 2: Prml 1.3~1.6 ver3

概要

1.3 モデルの選択• モデル選択のアプローチ

• 確認用集合・テスト集合・交差確認法など

1.4 次元の呪い• 次元が大きくなることの弊害について

1.5 決定理論• 確率からのクラス分類について

• 決定境界・棄却オプションなど

1.6 情報理論• 情報理論と確率理論やパターン認識・機械学習

• 情報量・エントロピー・相互情報量など

2

Page 3: Prml 1.3~1.6 ver3

1.3 モデル選択

3

Page 4: Prml 1.3~1.6 ver3

学習の流れ

• それぞれのアルゴリズムにおいて• 確認用集合を使って、複数のモデルから最良のものを選択

• テスト集合を使って、最良のモデルの性能を評価

• 評価結果から最良のアルゴリズムを選択

4

アルゴリズムB

アルゴリズムA

訓練集合 確認用集合

学習 モデル選択 性能評価

テスト集合

訓練集合 確認用集合

テスト集合

Page 5: Prml 1.3~1.6 ver3

データの使い道

5

Page 6: Prml 1.3~1.6 ver3

限られたデータの効率的利用

• 交差確認法(交差検定法)(cross-validation)

(LOO法(1個抜き法; leave-one-out method))

• 交差確認法の欠点(モデル選択における)• 学習回数が増える

• 複雑なモデル(パラメータが複数)などの場合には有効ではない

(パラメータ数に対し、指数関数的に訓練回数が増える可能性)

6

1. サンプルデータをS等分にする

2. 1個を評価に、残りS-1個を訓練に使う

3. 評価に使う部分を変えて、S回繰り返す

4. S回の性能スコアを平均する

※S = サンプルデータ数 にしたものがLOO法

S=4の例

Page 7: Prml 1.3~1.6 ver3

情報量規準(information criterion)

7

Page 8: Prml 1.3~1.6 ver3

赤池情報量規準の直感的理解

8

Page 9: Prml 1.3~1.6 ver3

実際の例(教科書とは違うデータですが)

9

訓練データ(n=10) 各モデルでの二乗誤差の総和

同分布で乱数を取り直す(確認用集合)

• 赤池情報量規準によって最初の訓練データで M = 1 が最良と導ける※対数尤度は、二乗誤差総和をデータ数(10)で割ったものの対数に比例

(tの複雑さがガウス分布に従うと仮定した場合)

Page 10: Prml 1.3~1.6 ver3

この他

• ベイズ情報量規準(Bayesian information criterion or BIC)• より、モデルの複雑さに対する罰則を強化したもの

• 詳しくは 4.4.1 節

10

Page 11: Prml 1.3~1.6 ver3

1.4 次元の呪い• この節で言いたい事は以下のようなこと

• 多くの入力変数による高次元空間を扱う際の問題・課題・困難

• 高次元化に伴う計算量の問題

• 一次元・二次元・三次元空間における直感的理解との齟齬

11

• 実データは多くの場合において

• 実質的に低次元のデータ(尐ないデータ)が目標変数へ影響

• (尐なくとも局所的には)滑らかな性質

→ 多様体(manifold)や内挿(置換)といった考え方を利用可能

1.次元の呪いとは

2.実データでは、高次元空間でもやりようがある

× ○

Page 12: Prml 1.3~1.6 ver3

例1:計算量の増加について(1)

• 例:入力変数が2つで、3状態に分類されるデータ

12

このデータは赤青緑のいずれに分類すべきか?

単純な手法:

マス目に区切って、最大数が属するクラスに分類

今回は2入力で、4x4に区切ったので16マス。ではもっと次元数が増えたら?

Page 13: Prml 1.3~1.6 ver3

例1:計算量の増加について(2)

13

※D=3に対しては、立方体の領域の一部だけ示す

Page 14: Prml 1.3~1.6 ver3

例2:多項式フィッティングの例

14

Page 15: Prml 1.3~1.6 ver3

例3:低次元での直感との齟齬(球の体積)• 半径 r = 1 の球の体積と、r=1と r = 1 – ε の間にある体積の比を考える

15

ε1

D = 2

D = 3

Page 16: Prml 1.3~1.6 ver3

例3:各次元での体積比

16

Page 17: Prml 1.3~1.6 ver3

例4:高次元ガウス分布の極座標系密度

17

Page 18: Prml 1.3~1.6 ver3

例4:高次元ガウス分布の極座標系密度

18

• 後の章の、モデルパラメータのベイズ推論を考える際に、この性質を使って重要な結論を導くらしい(演習1.20)

Page 19: Prml 1.3~1.6 ver3

例4:高次元ガウス分布の極座標系密度

• 1次元の場合

19

0

r r

• 2次元の場合

r r

Page 20: Prml 1.3~1.6 ver3

実データでの場合

20

1.実質的には低い次元の領域にある

and/or

重要な変化が生じる方向(次元)は限定的

2.(局所的には)滑らかな性質を持ち、

入力の小さな変化は目標変数に小さい変化しか与えない

→ 多様体(manifold)の考え方の利用や、内挿(補間)による目標変数の予測が可能

実データでは、高次元空間でもやりようがある

Page 21: Prml 1.3~1.6 ver3

例:画像データ

例:『ベルトコンベアの上の2次元形状の物体をキャプチャした画像から、その向きを決める』という問題

• データの次元数はピクセル数

• 実際は、画像間に存在する違いは『物体の位置と方向』だけ

(物体の位置x,y座標と角度θの3つの自由度)

21

Page 22: Prml 1.3~1.6 ver3

1.5 決定理論

22

Page 23: Prml 1.3~1.6 ver3

例:患者のX線画像から癌かどうかを判定•

23

Page 24: Prml 1.3~1.6 ver3

決定問題の要望その1:できるだけxを誤ったクラスに分類したくない•

24

Page 25: Prml 1.3~1.6 ver3

誤識別率

25

Page 26: Prml 1.3~1.6 ver3

一般のKクラスについて(正解率)

26

Page 27: Prml 1.3~1.6 ver3

一般のKクラスについて(誤識別率)

27

Page 28: Prml 1.3~1.6 ver3

決定問題の要望その2:期待損失(コスト)を最小化したい•

28

癌 正常

0 1000

1 0

正常

Page 29: Prml 1.3~1.6 ver3

期待損失の最小化

29

Page 30: Prml 1.3~1.6 ver3

棄却オプション

30

Page 31: Prml 1.3~1.6 ver3

推論と決定:決定問題3つのアプローチ

31

Page 32: Prml 1.3~1.6 ver3

それぞれの特徴

32

Page 33: Prml 1.3~1.6 ver3

事後確率が欲しくなるケース

• リスク最小化

• 棄却オプション

• クラス事前確率の補正

• モデルの結合

33

Page 34: Prml 1.3~1.6 ver3

事後確率が欲しくなるケース1リスク最小化

34

Page 35: Prml 1.3~1.6 ver3

事後確率が欲しくなるケース2棄却オプション

• 事後確率がなければ棄却オプションを使えない• 誤認識別率や期待損失の最小化ができない

35

Page 36: Prml 1.3~1.6 ver3

事後確率が欲しくなるケース3クラス事前確率の補正(1)

• 稀なケースのクラスへの対処

• 例:癌である画像が1000件に1件の場合問題1:全部正常と診断するだけで 99.9% の精度

問題2:幅広い癌の画像に対応すべく1000件集めるには

→ 学習には約1000000件のサンプルデータを集めて使う事に

→ 各クラスが同じくらいの数の訓練データを使えると良い• 訓練データに補正を加えた分を修正しなければならない

(癌の画像が通常1000件に1件程度という情報も必要)

36

Page 37: Prml 1.3~1.6 ver3

事後確率が欲しくなるケース3クラス事前確率の補正(2)•

37

Page 38: Prml 1.3~1.6 ver3

事後確率が欲しくなるケース4モデルの結合(1)•

38

Page 39: Prml 1.3~1.6 ver3

事後確率が欲しくなるケース4モデルの結合(1)•

39

Page 40: Prml 1.3~1.6 ver3

回帰の為の損失関数(1)

40

Page 41: Prml 1.3~1.6 ver3

回帰の為の損失関数(2)

41

各 x での、t の不確実さを表すのが p(t|x)

その平均地点を y(x) の値とする

Page 42: Prml 1.3~1.6 ver3

回帰の為の損失関数(3)

42

tの分布の分散を x に関して平均したもの。

目標データが本質的に持つ変動で、ノイズどうしようもない

Page 43: Prml 1.3~1.6 ver3

回帰の為の損失関数(4)

43

Page 44: Prml 1.3~1.6 ver3

ミンコフスキー損失と y(x)

44

• q=1 のとき

となる事が条件

y(x)は p(t|x) のメディアン

• q=0 のときt = y(x)が条件であり、

かつ y(x) が最大となる値

y(x) はモード(最頻値)※ 演習 1.27

Page 45: Prml 1.3~1.6 ver3

q=1について

45

Page 46: Prml 1.3~1.6 ver3

q=1 について(続き)

• これを満たす事が y(x) の条件

• q = 1 の時は

46

Page 47: Prml 1.3~1.6 ver3

q=0 について

47

Page 48: Prml 1.3~1.6 ver3

1.6 情報理論

• 情報理論の分野から、確率論などについて考える• パターン認識や機械学習に有用ないくつかの概念を学習

• 情報量

• エントロピー

• 微分エントロピー

• 相対エントロピー

• カルバックーライブラーダイバージェンス

• イェンセンの不等式

48

Page 49: Prml 1.3~1.6 ver3

情報量 (まず離散の事について)

49

Page 50: Prml 1.3~1.6 ver3

50

(※演習1.28)

Page 51: Prml 1.3~1.6 ver3

情報量の有名?な例

• 12枚の硬貨のうち、1枚が不良品で重さが違う。

天秤を使って不良品を特定するのに、何回必要か?

• 必要な事は、『12枚のうち1枚の特定』 → 1/12

『重いか軽いかの判定』 → 1/2

→ 必要な情報量は log (12*2) = log (24)

• 一度の天秤では右=左、右>左、右<左 の3通りの結果が得られる

→ 情報量は log(3) = 1.584962….

• 結果log (24) / log (3) = 2.8927892607 … → 3回は絶対必要

51

Page 52: Prml 1.3~1.6 ver3

確率変数 x のエントロピー(entropy)•

52

Page 53: Prml 1.3~1.6 ver3

エントロピー=複雑さ?

53

箱物体・・・

全部でN個の物体

Page 54: Prml 1.3~1.6 ver3

入れ方の総数を考える

54

Page 55: Prml 1.3~1.6 ver3

複雑さのエントロピー

55

Page 56: Prml 1.3~1.6 ver3

物理用語では

56

Page 57: Prml 1.3~1.6 ver3

離散確率変数で考えると・・・

57

• エントロピー低

• 一部で鋭いピークを持つ分布

• エントロピー高

• たくさんの値に広がっている分布

• エントロピー最小• どこかで p=1で、他では

p=0となる分布

• エントロピー最大• 全てが等確率 (一様分布)

Page 58: Prml 1.3~1.6 ver3

エントロピー最大が一様分布の証明

58

Page 59: Prml 1.3~1.6 ver3

連続変数でのエントロピー(1)

59

・平均値の定理の簡単な説明

Δ

積分値に等しくなる

赤い点が連続関数の場合見つかる

Page 60: Prml 1.3~1.6 ver3

連続変数でのエントロピー(2)

60

Page 61: Prml 1.3~1.6 ver3

微分エントロピーの最大化(1)

61

Page 62: Prml 1.3~1.6 ver3

微分エントロピーの最大化(2)

62

Page 63: Prml 1.3~1.6 ver3

微分エントロピーの最大化(3)

• ラグランジュ乗数法から、次の式を最大化 (演習1.34)

• 変分法を利用する事で次の式が得られる

• この p(x) と3つの制約式を使い最終的に

• ガウス分布になる

• 非負条件を入れなかったが、結局非負

63

Page 64: Prml 1.3~1.6 ver3

微分エントロピーの最大化(4)

64

Page 65: Prml 1.3~1.6 ver3

条件付きエントロピー(1)

65

Page 66: Prml 1.3~1.6 ver3

条件付きエントロピー(2)

66

Page 67: Prml 1.3~1.6 ver3

1.6.1 相対エントロピーと相互情報量•

67

Page 68: Prml 1.3~1.6 ver3

KLダイバージェンスの性質•

68

Page 69: Prml 1.3~1.6 ver3

イェンセンの不等式と凸関数(1)

• 凸(とつ)関数 (convex function)• 関数 f(x) で、すべての弦が関数に乗っているかそれよりも上にある

• 等号成立時がλ=0とλ=1のみに限る場合、真に凸(strictly convex)

• 真に凸 ⇔ 2階微分が常に正

69

f(a)

f(b)

点c:λf(a)+(1-λ)f(b)

f(λa+(1-λ)b)

※演習1.36

Page 70: Prml 1.3~1.6 ver3

イェンセンの不等式と凸関数(2)

70

Page 71: Prml 1.3~1.6 ver3

イェンセンの不等式と凸関数(3)

71

Page 72: Prml 1.3~1.6 ver3

イェンセンの不等式の直感的理解

72

Page 73: Prml 1.3~1.6 ver3

KLダイバージェンス(1)

73

Page 74: Prml 1.3~1.6 ver3

KLダイバージェンス(2)

74

Page 75: Prml 1.3~1.6 ver3

KLダイバージェンス(3) 相互情報量•

75

Page 76: Prml 1.3~1.6 ver3

でてきた演習問題

• P14 1.15, 1.16

• P15 1.18

• P17 1.20 (P18)

• P30 1.24

• P44 1.27

• P50 1.28 取りこぼしもあるでしょうし、

• P63 1.34 だからなんだって感じですが

• P64 1.35

• P66 1.37

• P69 1.36

76