第26 回決定係数と分散分析（3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3...

2019年1月15日

第26回　決定係数と分散分析（3.4, 13.4）

村澤康友

前回のキーワード古典的線形回帰モデル，古典的正規線形回帰モデル，線形推定量，線形不偏推定量，最良線形不偏推定量（BLUE），ガウス＝マルコフ定理，標準誤差，t値，F値

1

今日のポイント� �1. 総変動（TSS）は回帰変動（ESS）と残差変動（RSS）に分解できる（TSS = ESS + RSS）．決定係数はR2 := ESS/TSS = 1 − RSS/TSS．自由度修正済み決定係数はR2 := 1− [RSS/(n− k)]/[TSS/(n− 1)]．

2. yiと yiの相関係数を，yiとxiの重相関係数という．重相関係数の2乗＝決定係数．� �

2

今日のポイント� �3. 1元配置分散分析は2標本問題のk標本問題への拡張．各群の母平均に対する因子の効果の有無を検定する．各群のダミー変数を説明変数とし，すべての回帰係数が等しいかどうかをF検定すればよい．1元配置分散分析表はF検定の理解に役立つ．

4. 2元配置分散分析は2つの因子の効果を分析する．交互作用を捉えるには各群のダミー変数の交差項も説明変数に加える．� �

3

目次

1 決定係数と重相関係数 5

1.1 決定係数（pp. 60, 272） . . . . . . . . . . . 5

1.2 自由度修正済み決定係数 . . . . . . . . . . . . 13

1.3 重相関係数（pp. 63, 272） . . . . . . . . . . 16

2 分散分析 20

2.1 1元配置分散分析 . . . . . . . . . . . . . . . . 20

2.2 群内変動と群間変動 . . . . . . . . . . . . . . 24

2.3 要因効果のF検定 . . . . . . . . . . . . . . . 28

2.4 2元配置分散分析 . . . . . . . . . . . . . . . . 35

4

1 決定係数と重相関係数1.1 決定係数（pp. 60, 272）

yiのxi上への単回帰モデルは

E(yi|xi) = α+ βxi

回帰予測を yi := a∗ + b∗xi，残差をei := yi − yiとする．

5

定理 1.

n∑i=1

ei = 0

n∑i=1

xiei = 0

6

証明：OLS問題は

mina,b

n∑i=1

(yi − a− bxi)2

and a, b ∈ R

1階の条件より

n∑i=1

(yi − a∗ − b∗xi) = 0

n∑i=1

xi(yi − a∗ − b∗xi) = 0

7

定義 1. (y1, . . . , yn)の総変動は

TSS :=n∑

i=1

(yi − y)2

定義 2. (y1, . . . , yn)の回帰変動は

ESS :=n∑

i=1

(yi − y)2

8

定義 3. (y1, . . . , yn)の残差変動（残差2乗和）は

RSS :=n∑

i=1

e2i

定理 2.TSS = ESS + RSS

9

証明：総変動は

TSS :=n∑

i=1

(yi − y)2

=n∑

i=1

[(yi − y) + ei]2

=n∑

i=1

[(yi − y)2 + 2(yi − y)ei + e2i

]=

n∑i=1

(yi − y)2 + 2n∑

i=1

(yi − y)ei +n∑

i=1

e2i

10

前定理より

n∑i=1

(yi − y)ei =n∑

i=1

[(a∗ + b∗xi)− (a∗ + b∗x)]ei

= b∗n∑

i=1

(xi − x)ei

= b∗n∑

i=1

xiei − b∗xn∑

i=1

ei

= 0

注：重回帰の場合も同様．

11

定義 4. 回帰の決定係数は

R2 :=ESS

TSS

注：前定理より

R2 = 1− RSS

TSS

12

1.2 自由度修正済み決定係数

定義 5. 自由度修正済み決定係数は

R2 := 1− RSS/(n− k)

TSS/(n− 1)

13

注：無作為標本なら

E

(1

n− 1

n∑i=1

(yi − y)2

)= var(yi)

古典的線形回帰モデルなら

E

(1

n− k

n∑i=1

e2i

)= var(ui)

したがってR2は1− var(ui)/ var(yi)の推定量となっている．

14

ただし

E(R2)= 1− E

([1/(n− k)]

∑ni=1 e

2i

[1/(n− 1)]∑n

i=1(yi − y)2

)= 1−

E([1/(n− k)]

∑ni=1 e

2i

)E([1/(n− 1)]

∑ni=1(yi − y)2)

= 1− var(ui)

var(yi)

15

1.3 重相関係数（pp. 63, 272）

定義 6. yiと yiの相関係数を，yiとxiの重相関係数という．

注：重回帰でyiと(xi,1, . . . , xi,k)の関係の強さを測る．単回帰なら重相関係数＝相関係数．

定理 3. 決定係数は重相関係数の2乗．

16

証明：(y1, . . . , yn)の平均は

1

n

n∑i=1

yi =1

n

n∑i=1

(a∗ + b∗xi)

= a∗ + b∗x

= y

17

((y1, y1), . . . , (yn, yn))の共分散は

1

n

n∑i=1

(yi − y)(yi − y) =1

n

n∑i=1

[(yi − y) + ei](yi − y)

=1

n

n∑i=1

(yi − y)2 +1

n

n∑i=1

ei(yi − y)

=1

n

n∑i=1

(yi − y)2

18

((y1, y1), . . . , (yn, yn))の相関係数は

(1/n)∑n

i=1(yi − y)(yi − y)√(1/n)

∑ni=1(yi − y)2

√(1/n)

∑ni=1(yi − y)2

=(1/n)

∑ni=1(yi − y)2√

(1/n)∑n

i=1(yi − y)2√

(1/n)∑n

i=1(yi − y)2

=

√∑ni=1(yi − y)2∑ni=1(yi − y)2

=

√ESS

TSS

19

2 分散分析2.1 1元配置分散分析

2標本問題をk標本問題に拡張し，k個の正規母集団N(µ1, σ

2), . . . ,N

(µk, σ

2)の母平均を比較したい．

各母集団（群）から独立に抽出した大きさn1, . . . , nkの無作為標本を(y1,1, . . . , y1,n1

), . . . , (yk,1, . . . , yk,nk)とする．

n := n1 + · · ·+ nkとする．

定義 7. µ1, . . . , µkの総平均は

µ :=µ1 + · · ·+ µk

k

20

定義 8. µ1, . . . , µkが異なる原因を因子（要因）という．

例 1. 薬の投与．

定義 9. h = 1, . . . , kを因子の水準という．

例 2. 処置の有無や程度．

定義 10. αh := µh − µを水準hの効果という．

例 3. 処置効果．

21

定義 11. 1元配置分散分析モデルはh = 1, . . . , k,

i = 1, . . . , nhについて

yh,i = µh + uh,i

uh,i ∼ N(0, σ2

)または

yh,i = µ+ αh + uh,i

uh,i ∼ N(0, σ2

)ただしα1 + · · ·+ αk = 0．

22

注：h = 1, . . . , k, i = 1, . . . , nhについてxh,i := hとすると

yh,i =k∑

j=1

µj [xh,i = j] + uh,i

すなわちダミー変数を説明変数とした線形回帰モデルとなる．

23

2.2 群内変動と群間変動

各群の標本平均はh = 1, . . . , kについて

yh :=1

nh

nh∑i=1

yh,i

全群の標本平均は

y :=1

n

k∑h=1

nh∑i=1

yh,i

24

定義 12. 全変動は

S :=k∑

h=1

nh∑i=1

(yh,i − y)2

定義 13. 群内変動は

Sw :=k∑

h=1

nh∑i=1

(yh,i − yh)2

25

定義 14. 群間変動は

Sb :=k∑

h=1

nh∑i=1

(yh − y)2

定理 4.S = Sw + Sb

26

証明：

S =k∑

h=1

nh∑i=1

(yh,i − yh + yh − y)2

=k∑

h=1

nh∑i=1

[(yh,i − yh)

2 + 2(yh,i − yh)(yh − y) + (yh − y)2]

= Sw + 2k∑

h=1

(yh − y)

nh∑i=1

(yh,i − yh) + Sb

第2項は0．

27

2.3 要因効果のF検定

次の検定問題を考える．

H0 : µ1 = · · · = µk vs H1 : µh = µ for some h = 1, . . . , k

定理 5.Sw

σ2∼ χ2(n− k)

28

証明：h = 1, . . . , kについて∑nh

i=1(yh,i − yh)2

σ2∼ χ2(nh − 1)

各群からの標本は独立なので

k∑h=1

∑nh

i=1(yh,i − yh)2

σ2∼ χ2

(k∑

h=1

(nh − 1)

)

29

定理 6. H0の下で

S

σ2∼ χ2(n− 1)

証明：H0の下で{yh,i} ∼ IN(µ, σ2

)．

定理 7. SwとSbは独立．

証明：「統計学入門」の範囲を超えるので省略．

30

補題 1. 以下を仮定する．

1. X + Y ∼ χ2(m)

2. X ∼ χ2(n)

3. XとY は独立

このときY ∼ χ2(m− n)

31

証明：XとY は独立なので，任意のtについて

MX+Y (t) = MX(t)MY (t)

したがって

MY (t) =MX+Y (t)

MX(t)

=(1− 2t)−m/2

(1− 2t)−n/2

= (1− 2t)−(m−n)/2

これはχ2(m− n)のmgf．

32

定理 8. H0の下で

Sb

σ2∼ χ2(k − 1)

証明：H0の下で

S

σ2∼ χ2(n− 1)

Sw

σ2∼ χ2(n− k)

SwとSbは独立なので，補題より

S

σ2− Sw

σ2∼ χ2(k − 1)

33

系 1. H0の下で

Sb/(k − 1)

Sw/(n− k)∼ F(k − 1, n− k)

定義 15. 1元配置分散分析表は

自由度変動分散 F値群間 k − 1 Sb Sb/(k − 1) [Sb/(k − 1)]/[Sw/(n− k)]

群内 n− k Sw Sw/(n− k)

計 n− 1 S S/(n− 1)

34

2.4 2元配置分散分析

2つの因子A, Bを考える．因子Aの水準をj = 1, . . . , J，因子Bの水準をk = 1, . . . ,Kとする．

定義 16. 2元配置分散分析モデルはj = 1, . . . , J ,

k = 1, . . . ,K, i = 1, . . . , nj,kについて

yj,k,i = µ+ αj + βk + γj,k + uj,k,i

uj,k,i ∼ N(0, σ2

)注：αj , βkを主効果, γj,kを交互作用という．

35

注：j = 1, . . . , J , k = 1, . . . ,K, i = 1, . . . , nj,kについてxj,k,i := j，zj,k,i = kとすると

yj,k,i = µ+J∑

j′=1

αj [xj,k,i = j′] +K∑

k′=1

βj [zj,k,i = k′]

+

J∑j′=1

K∑k′=1

γj,k[xj,k,i = j′][zj,k,i = k′] + uj,k,i

すなわちダミー変数とその交差項を説明変数とした線形回帰モデルとなる．

36

今日のキーワード総変動，回帰変動，残差変動，決定係数，自由度修正済み決定係数，重相関係数，総平均，因子（要因），（因子の）水準，（水準の）効果，1元配置分散分析モデル，群内変動，群間変動，1元配置分散分析表，2元配置分散分析モデル，主効果，交互作用

37

次回までの準備復習教科書第3章4節，第13章4節試験 (1)教科書を読む(2)用語の定義を覚える(3)復習テストを自力で解く(4)過去問に挑戦

38

第26 回 決定係数と分散分析（3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3...

Documents

第26 回決定係数と分散分析（3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3...