事前分布との出会い
DESCRIPTION
TRANSCRIPT
1
JMRX at Intage 2010年 12月 15日
「事前分布との出会い」
朝野熙彦(首都大)
(1)ロジスティック回帰分析
確率pのロジット(logit)をリンク関数にした一般線形モデルを①に示す。
log1
pc x b
p
………………………………………①
①で x b はベクトルの内積 ,x b を示す。xは実数値をとる k 次のベクトルで、
bはパラメータベクトル、cは定数である。①の左辺を対数オッズとかロジッ
トと呼び、確率pをロジットに変換することをロジット変換と呼ぶ。この変換
によって 0 1p の定義域を正から負まで無限の値が取れるように広げること
ができる。そのロジットが線形予測子である c x b によって定まるというのが
①の構造モデルの意味。①に従う分析をロジスティック回帰分析という。線形
予測子をまとめてVと書き両辺の指数をとって変形すると②が導かれる。
exp , exp exp , 1 exp exp1
exp 1 1
1 exp 1 exp 1 exp
pV p V p V p V V
p
Vp
V V c x b
………②
成長曲線という解釈にこだわらず一般的な分析法として②の関数に着目した
のが Berkson(1944)であった。説明変数を多変量に拡張したのが Truett と
Cornfie1d(1967)、最尤解を示したのが Wa1ker と Duncan(1967)である。
(2)多変量正規分布の尤度比
デフォルト集団を 1g 、完済集団を 0g とし、k 個の説明変数が平均ベクトル
1 0, 、分散共分散行列∑が等しい多変量正規分布に従うと仮定する。第g集団
の正規分布の密度関数は 1,0g 、円周率をπとして
122
11 1exp
22kg g gf x x x
……………③
2つの集団はパラメータ 1 0, だけが異なる。データxが与えられたもとで③
は尤度でもあるので、完済 vs デフォルトの尤度比は④の通り。どちらを分子に
2
してもよいが後の数式展開の都合でこのように書いた。指数の部分が煩雑にな
るが根気よく展開すると④のようになる。
0 1 1
1 0 1 0 1 0
1
1exp exp
2
f xx a b x b
f x
……④
④右辺では 11 02
a 、 1
1 0b と要約した。 bx はフィッシャーの線
形判別関数 discriminant function と呼ばれるもので、b は判別係数である。
(3)ベイズの定理
デフォルトの事前確率を とすれば、データxの人がデフォルト群に属する確
率はベイズの定理から次のようになる。
1
1
01 0
1
1
1 11
1
11 exp log
f xp g x
f xf x f x
f x
a b x b
……………………⑤
⑤が有名なフラミンガム研究で提唱された多重ロジスティック関数である。
事前分布が無情報の場合は 0.5, log1 0 となるのでxに無関係な定数を
a b c とおけば⑤は、
1
1
1 expp g x
c x b
………………………………………⑥
結局、Truett らの多重ロジスティック関数はロジスティック回帰分析に事前分布を加えた
ものであることが分かる。
(4)事前分布の組み込み
⑥における分母のcは2群の平均値に対応した判別スコアの重心を意味している。なぜな
ら④で 11 02
a としたからである。つまり2群の規模の違いを無視してその平均の判
別スコアを定性的に表したものである。それに対して⑤の右辺分母の「負の対数オッズ」
1log log
1
は事前分布の効果を表している。
調査データの群構成比が市場全体と一致しない場合は多い。そのような場合は⑤を利用
して線形判別関数からまず手計算で定数cを求め、それにさらに負の対数オッズを加えるこ
とで、事前分布を加味した個人予測モデルができる。なお事前分布としては が分かればよ
いので、過去の個票データは不要である。