第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3...
TRANSCRIPT
2019年1月15日
第26回 決定係数と分散分析(3.4, 13.4)
村澤 康友
前回のキーワード古典的線形回帰モデル,古典的正規線形回帰モデル,線形推定量,線形不偏推定量,最良線形不偏推定量(BLUE),ガウス=マルコフ定理,標準誤差,t値,F値
1
今日のポイント� �1. 総変動(TSS)は回帰変動(ESS)と残差変動(RSS)に分解できる(TSS = ESS + RSS).決定係数はR2 := ESS/TSS = 1 − RSS/TSS.自由度修正済み決定係数はR2 := 1− [RSS/(n− k)]/[TSS/(n− 1)].
2. yiと yiの相関係数を,yiとxiの重相関係数という.重相関係数の2乗=決定係数.� �
2
今日のポイント� �3. 1元配置分散分析は2標本問題のk標本問題への拡張.各群の母平均に対する因子の効果の有無を検定する.各群のダミー変数を説明変数とし,すべての回帰係数が等しいかどうかをF検定すればよい.1元配置分散分析表はF検定の理解に役立つ.
4. 2元配置分散分析は2つの因子の効果を分析する.交互作用を捉えるには各群のダミー変数の交差項も説明変数に加える.� �
3
目次
1 決定係数と重相関係数 5
1.1 決定係数(pp. 60, 272) . . . . . . . . . . . 5
1.2 自由度修正済み決定係数 . . . . . . . . . . . . 13
1.3 重相関係数(pp. 63, 272) . . . . . . . . . . 16
2 分散分析 20
2.1 1元配置分散分析 . . . . . . . . . . . . . . . . 20
2.2 群内変動と群間変動 . . . . . . . . . . . . . . 24
2.3 要因効果のF検定 . . . . . . . . . . . . . . . 28
2.4 2元配置分散分析 . . . . . . . . . . . . . . . . 35
4
1 決定係数と重相関係数1.1 決定係数(pp. 60, 272)
yiのxi上への単回帰モデルは
E(yi|xi) = α+ βxi
回帰予測を yi := a∗ + b∗xi,残差をei := yi − yiとする.
5
定理 1.
n∑i=1
ei = 0
n∑i=1
xiei = 0
6
証明:OLS問題は
mina,b
n∑i=1
(yi − a− bxi)2
and a, b ∈ R
1階の条件より
n∑i=1
(yi − a∗ − b∗xi) = 0
n∑i=1
xi(yi − a∗ − b∗xi) = 0
7
定義 1. (y1, . . . , yn)の総変動は
TSS :=n∑
i=1
(yi − y)2
定義 2. (y1, . . . , yn)の回帰変動は
ESS :=n∑
i=1
(yi − y)2
8
定義 3. (y1, . . . , yn)の残差変動(残差2乗和)は
RSS :=n∑
i=1
e2i
定理 2.TSS = ESS + RSS
9
証明:総変動は
TSS :=n∑
i=1
(yi − y)2
=n∑
i=1
[(yi − y) + ei]2
=n∑
i=1
[(yi − y)2 + 2(yi − y)ei + e2i
]=
n∑i=1
(yi − y)2 + 2n∑
i=1
(yi − y)ei +n∑
i=1
e2i
10
前定理より
n∑i=1
(yi − y)ei =n∑
i=1
[(a∗ + b∗xi)− (a∗ + b∗x)]ei
= b∗n∑
i=1
(xi − x)ei
= b∗n∑
i=1
xiei − b∗xn∑
i=1
ei
= 0
注:重回帰の場合も同様.
11
定義 4. 回帰の決定係数は
R2 :=ESS
TSS
注:前定理より
R2 = 1− RSS
TSS
12
1.2 自由度修正済み決定係数
定義 5. 自由度修正済み決定係数は
R2 := 1− RSS/(n− k)
TSS/(n− 1)
13
注:無作為標本なら
E
(1
n− 1
n∑i=1
(yi − y)2
)= var(yi)
古典的線形回帰モデルなら
E
(1
n− k
n∑i=1
e2i
)= var(ui)
したがってR2は1− var(ui)/ var(yi)の推定量となっている.
14
ただし
E(R2)= 1− E
([1/(n− k)]
∑ni=1 e
2i
[1/(n− 1)]∑n
i=1(yi − y)2
)= 1−
E([1/(n− k)]
∑ni=1 e
2i
)E([1/(n− 1)]
∑ni=1(yi − y)2)
= 1− var(ui)
var(yi)
15
1.3 重相関係数(pp. 63, 272)
定義 6. yiと yiの相関係数を,yiとxiの重相関係数という.
注:重回帰でyiと(xi,1, . . . , xi,k)の関係の強さを測る.単回帰なら重相関係数=相関係数.
定理 3. 決定係数は重相関係数の2乗.
16
証明:(y1, . . . , yn)の平均は
1
n
n∑i=1
yi =1
n
n∑i=1
(a∗ + b∗xi)
= a∗ + b∗x
= y
17
((y1, y1), . . . , (yn, yn))の共分散は
1
n
n∑i=1
(yi − y)(yi − y) =1
n
n∑i=1
[(yi − y) + ei](yi − y)
=1
n
n∑i=1
(yi − y)2 +1
n
n∑i=1
ei(yi − y)
=1
n
n∑i=1
(yi − y)2
18
((y1, y1), . . . , (yn, yn))の相関係数は
(1/n)∑n
i=1(yi − y)(yi − y)√(1/n)
∑ni=1(yi − y)2
√(1/n)
∑ni=1(yi − y)2
=(1/n)
∑ni=1(yi − y)2√
(1/n)∑n
i=1(yi − y)2√
(1/n)∑n
i=1(yi − y)2
=
√∑ni=1(yi − y)2∑ni=1(yi − y)2
=
√ESS
TSS
19
2 分散分析2.1 1元配置分散分析
2標本問題をk標本問題に拡張し,k個の正規母集団N(µ1, σ
2), . . . ,N
(µk, σ
2)の母平均を比較したい.
各母集団(群)から独立に抽出した大きさn1, . . . , nkの無作為標本を(y1,1, . . . , y1,n1
), . . . , (yk,1, . . . , yk,nk)とする.
n := n1 + · · ·+ nkとする.
定義 7. µ1, . . . , µkの総平均は
µ :=µ1 + · · ·+ µk
k
20
定義 8. µ1, . . . , µkが異なる原因を因子(要因)という.
例 1. 薬の投与.
定義 9. h = 1, . . . , kを因子の水準という.
例 2. 処置の有無や程度.
定義 10. αh := µh − µを水準hの効果という.
例 3. 処置効果.
21
定義 11. 1元配置分散分析モデルはh = 1, . . . , k,
i = 1, . . . , nhについて
yh,i = µh + uh,i
uh,i ∼ N(0, σ2
)または
yh,i = µ+ αh + uh,i
uh,i ∼ N(0, σ2
)ただしα1 + · · ·+ αk = 0.
22
注:h = 1, . . . , k, i = 1, . . . , nhについてxh,i := hとすると
yh,i =k∑
j=1
µj [xh,i = j] + uh,i
すなわちダミー変数を説明変数とした線形回帰モデルとなる.
23
2.2 群内変動と群間変動
各群の標本平均はh = 1, . . . , kについて
yh :=1
nh
nh∑i=1
yh,i
全群の標本平均は
y :=1
n
k∑h=1
nh∑i=1
yh,i
24
定義 12. 全変動は
S :=k∑
h=1
nh∑i=1
(yh,i − y)2
定義 13. 群内変動は
Sw :=k∑
h=1
nh∑i=1
(yh,i − yh)2
25
定義 14. 群間変動は
Sb :=k∑
h=1
nh∑i=1
(yh − y)2
定理 4.S = Sw + Sb
26
証明:
S =k∑
h=1
nh∑i=1
(yh,i − yh + yh − y)2
=k∑
h=1
nh∑i=1
[(yh,i − yh)
2 + 2(yh,i − yh)(yh − y) + (yh − y)2]
= Sw + 2k∑
h=1
(yh − y)
nh∑i=1
(yh,i − yh) + Sb
第2項は0.
27
2.3 要因効果のF検定
次の検定問題を考える.
H0 : µ1 = · · · = µk vs H1 : µh = µ for some h = 1, . . . , k
定理 5.Sw
σ2∼ χ2(n− k)
28
証明:h = 1, . . . , kについて∑nh
i=1(yh,i − yh)2
σ2∼ χ2(nh − 1)
各群からの標本は独立なので
k∑h=1
∑nh
i=1(yh,i − yh)2
σ2∼ χ2
(k∑
h=1
(nh − 1)
)
29
定理 6. H0の下で
S
σ2∼ χ2(n− 1)
証明:H0の下で{yh,i} ∼ IN(µ, σ2
).
定理 7. SwとSbは独立.
証明:「統計学入門」の範囲を超えるので省略.
30
補題 1. 以下を仮定する.
1. X + Y ∼ χ2(m)
2. X ∼ χ2(n)
3. XとY は独立
このときY ∼ χ2(m− n)
31
証明:XとY は独立なので,任意のtについて
MX+Y (t) = MX(t)MY (t)
したがって
MY (t) =MX+Y (t)
MX(t)
=(1− 2t)−m/2
(1− 2t)−n/2
= (1− 2t)−(m−n)/2
これはχ2(m− n)のmgf.
32
定理 8. H0の下で
Sb
σ2∼ χ2(k − 1)
証明:H0の下で
S
σ2∼ χ2(n− 1)
Sw
σ2∼ χ2(n− k)
SwとSbは独立なので,補題より
S
σ2− Sw
σ2∼ χ2(k − 1)
33
系 1. H0の下で
Sb/(k − 1)
Sw/(n− k)∼ F(k − 1, n− k)
定義 15. 1元配置分散分析表は
自由度 変動 分散 F値群間 k − 1 Sb Sb/(k − 1) [Sb/(k − 1)]/[Sw/(n− k)]
群内 n− k Sw Sw/(n− k)
計 n− 1 S S/(n− 1)
34
2.4 2元配置分散分析
2つの因子A, Bを考える.因子Aの水準をj = 1, . . . , J,因子Bの水準をk = 1, . . . ,Kとする.
定義 16. 2元配置分散分析モデルはj = 1, . . . , J ,
k = 1, . . . ,K, i = 1, . . . , nj,kについて
yj,k,i = µ+ αj + βk + γj,k + uj,k,i
uj,k,i ∼ N(0, σ2
)注:αj , βkを主効果, γj,kを交互作用という.
35
注:j = 1, . . . , J , k = 1, . . . ,K, i = 1, . . . , nj,kについてxj,k,i := j,zj,k,i = kとすると
yj,k,i = µ+J∑
j′=1
αj [xj,k,i = j′] +K∑
k′=1
βj [zj,k,i = k′]
+
J∑j′=1
K∑k′=1
γj,k[xj,k,i = j′][zj,k,i = k′] + uj,k,i
すなわちダミー変数とその交差項を説明変数とした線形回帰モデルとなる.
36
今日のキーワード総変動,回帰変動,残差変動,決定係数,自由度修正済み決定係数,重相関係数,総平均,因子(要因),(因子の)水準,(水準の)効果,1元配置分散分析モデル,群内変動,群間変動,1元配置分散分析表,2元配置分散分析モデル,主効果,交互作用
37
次回までの準備復習 教科書第3章4節,第13章4節試験 (1)教科書を読む(2)用語の定義を覚える(3)復習テストを自力で解く(4)過去問に挑戦
38