第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3...

39
2019 1 15 26 決定係数と分散分析(3.4, 13.4村澤 康友

Upload: others

Post on 13-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

2019年1月15日

第26回 決定係数と分散分析(3.4, 13.4)

村澤 康友

Page 2: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

前回のキーワード古典的線形回帰モデル,古典的正規線形回帰モデル,線形推定量,線形不偏推定量,最良線形不偏推定量(BLUE),ガウス=マルコフ定理,標準誤差,t値,F値

1

Page 3: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

今日のポイント� �1. 総変動(TSS)は回帰変動(ESS)と残差変動(RSS)に分解できる(TSS = ESS + RSS).決定係数はR2 := ESS/TSS = 1 − RSS/TSS.自由度修正済み決定係数はR2 := 1− [RSS/(n− k)]/[TSS/(n− 1)].

2. yiと yiの相関係数を,yiとxiの重相関係数という.重相関係数の2乗=決定係数.� �

2

Page 4: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

今日のポイント� �3. 1元配置分散分析は2標本問題のk標本問題への拡張.各群の母平均に対する因子の効果の有無を検定する.各群のダミー変数を説明変数とし,すべての回帰係数が等しいかどうかをF検定すればよい.1元配置分散分析表はF検定の理解に役立つ.

4. 2元配置分散分析は2つの因子の効果を分析する.交互作用を捉えるには各群のダミー変数の交差項も説明変数に加える.� �

3

Page 5: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

目次

1 決定係数と重相関係数 5

1.1 決定係数(pp. 60, 272) . . . . . . . . . . . 5

1.2 自由度修正済み決定係数 . . . . . . . . . . . . 13

1.3 重相関係数(pp. 63, 272) . . . . . . . . . . 16

2 分散分析 20

2.1 1元配置分散分析 . . . . . . . . . . . . . . . . 20

2.2 群内変動と群間変動 . . . . . . . . . . . . . . 24

2.3 要因効果のF検定 . . . . . . . . . . . . . . . 28

2.4 2元配置分散分析 . . . . . . . . . . . . . . . . 35

4

Page 6: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

1 決定係数と重相関係数1.1 決定係数(pp. 60, 272)

yiのxi上への単回帰モデルは

E(yi|xi) = α+ βxi

回帰予測を yi := a∗ + b∗xi,残差をei := yi − yiとする.

5

Page 7: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

定理 1.

n∑i=1

ei = 0

n∑i=1

xiei = 0

6

Page 8: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

証明:OLS問題は

mina,b

n∑i=1

(yi − a− bxi)2

and a, b ∈ R

1階の条件より

n∑i=1

(yi − a∗ − b∗xi) = 0

n∑i=1

xi(yi − a∗ − b∗xi) = 0

7

Page 9: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

定義 1. (y1, . . . , yn)の総変動は

TSS :=n∑

i=1

(yi − y)2

定義 2. (y1, . . . , yn)の回帰変動は

ESS :=n∑

i=1

(yi − y)2

8

Page 10: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

定義 3. (y1, . . . , yn)の残差変動(残差2乗和)は

RSS :=n∑

i=1

e2i

定理 2.TSS = ESS + RSS

9

Page 11: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

証明:総変動は

TSS :=n∑

i=1

(yi − y)2

=n∑

i=1

[(yi − y) + ei]2

=n∑

i=1

[(yi − y)2 + 2(yi − y)ei + e2i

]=

n∑i=1

(yi − y)2 + 2n∑

i=1

(yi − y)ei +n∑

i=1

e2i

10

Page 12: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

前定理より

n∑i=1

(yi − y)ei =n∑

i=1

[(a∗ + b∗xi)− (a∗ + b∗x)]ei

= b∗n∑

i=1

(xi − x)ei

= b∗n∑

i=1

xiei − b∗xn∑

i=1

ei

= 0

注:重回帰の場合も同様.

11

Page 13: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

定義 4. 回帰の決定係数は

R2 :=ESS

TSS

注:前定理より

R2 = 1− RSS

TSS

12

Page 14: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

1.2 自由度修正済み決定係数

定義 5. 自由度修正済み決定係数は

R2 := 1− RSS/(n− k)

TSS/(n− 1)

13

Page 15: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

注:無作為標本なら

E

(1

n− 1

n∑i=1

(yi − y)2

)= var(yi)

古典的線形回帰モデルなら

E

(1

n− k

n∑i=1

e2i

)= var(ui)

したがってR2は1− var(ui)/ var(yi)の推定量となっている.

14

Page 16: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

ただし

E(R2)= 1− E

([1/(n− k)]

∑ni=1 e

2i

[1/(n− 1)]∑n

i=1(yi − y)2

)= 1−

E([1/(n− k)]

∑ni=1 e

2i

)E([1/(n− 1)]

∑ni=1(yi − y)2)

= 1− var(ui)

var(yi)

15

Page 17: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

1.3 重相関係数(pp. 63, 272)

定義 6. yiと yiの相関係数を,yiとxiの重相関係数という.

注:重回帰でyiと(xi,1, . . . , xi,k)の関係の強さを測る.単回帰なら重相関係数=相関係数.

定理 3. 決定係数は重相関係数の2乗.

16

Page 18: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

証明:(y1, . . . , yn)の平均は

1

n

n∑i=1

yi =1

n

n∑i=1

(a∗ + b∗xi)

= a∗ + b∗x

= y

17

Page 19: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

((y1, y1), . . . , (yn, yn))の共分散は

1

n

n∑i=1

(yi − y)(yi − y) =1

n

n∑i=1

[(yi − y) + ei](yi − y)

=1

n

n∑i=1

(yi − y)2 +1

n

n∑i=1

ei(yi − y)

=1

n

n∑i=1

(yi − y)2

18

Page 20: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

((y1, y1), . . . , (yn, yn))の相関係数は

(1/n)∑n

i=1(yi − y)(yi − y)√(1/n)

∑ni=1(yi − y)2

√(1/n)

∑ni=1(yi − y)2

=(1/n)

∑ni=1(yi − y)2√

(1/n)∑n

i=1(yi − y)2√

(1/n)∑n

i=1(yi − y)2

=

√∑ni=1(yi − y)2∑ni=1(yi − y)2

=

√ESS

TSS

19

Page 21: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

2 分散分析2.1 1元配置分散分析

2標本問題をk標本問題に拡張し,k個の正規母集団N(µ1, σ

2), . . . ,N

(µk, σ

2)の母平均を比較したい.

各母集団(群)から独立に抽出した大きさn1, . . . , nkの無作為標本を(y1,1, . . . , y1,n1

), . . . , (yk,1, . . . , yk,nk)とする.

n := n1 + · · ·+ nkとする.

定義 7. µ1, . . . , µkの総平均は

µ :=µ1 + · · ·+ µk

k

20

Page 22: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

定義 8. µ1, . . . , µkが異なる原因を因子(要因)という.

例 1. 薬の投与.

定義 9. h = 1, . . . , kを因子の水準という.

例 2. 処置の有無や程度.

定義 10. αh := µh − µを水準hの効果という.

例 3. 処置効果.

21

Page 23: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

定義 11. 1元配置分散分析モデルはh = 1, . . . , k,

i = 1, . . . , nhについて

yh,i = µh + uh,i

uh,i ∼ N(0, σ2

)または

yh,i = µ+ αh + uh,i

uh,i ∼ N(0, σ2

)ただしα1 + · · ·+ αk = 0.

22

Page 24: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

注:h = 1, . . . , k, i = 1, . . . , nhについてxh,i := hとすると

yh,i =k∑

j=1

µj [xh,i = j] + uh,i

すなわちダミー変数を説明変数とした線形回帰モデルとなる.

23

Page 25: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

2.2 群内変動と群間変動

各群の標本平均はh = 1, . . . , kについて

yh :=1

nh

nh∑i=1

yh,i

全群の標本平均は

y :=1

n

k∑h=1

nh∑i=1

yh,i

24

Page 26: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

定義 12. 全変動は

S :=k∑

h=1

nh∑i=1

(yh,i − y)2

定義 13. 群内変動は

Sw :=k∑

h=1

nh∑i=1

(yh,i − yh)2

25

Page 27: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

定義 14. 群間変動は

Sb :=k∑

h=1

nh∑i=1

(yh − y)2

定理 4.S = Sw + Sb

26

Page 28: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

証明:

S =k∑

h=1

nh∑i=1

(yh,i − yh + yh − y)2

=k∑

h=1

nh∑i=1

[(yh,i − yh)

2 + 2(yh,i − yh)(yh − y) + (yh − y)2]

= Sw + 2k∑

h=1

(yh − y)

nh∑i=1

(yh,i − yh) + Sb

第2項は0.

27

Page 29: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

2.3 要因効果のF検定

次の検定問題を考える.

H0 : µ1 = · · · = µk vs H1 : µh = µ for some h = 1, . . . , k

定理 5.Sw

σ2∼ χ2(n− k)

28

Page 30: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

証明:h = 1, . . . , kについて∑nh

i=1(yh,i − yh)2

σ2∼ χ2(nh − 1)

各群からの標本は独立なので

k∑h=1

∑nh

i=1(yh,i − yh)2

σ2∼ χ2

(k∑

h=1

(nh − 1)

)

29

Page 31: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

定理 6. H0の下で

S

σ2∼ χ2(n− 1)

証明:H0の下で{yh,i} ∼ IN(µ, σ2

).

定理 7. SwとSbは独立.

証明:「統計学入門」の範囲を超えるので省略.

30

Page 32: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

補題 1. 以下を仮定する.

1. X + Y ∼ χ2(m)

2. X ∼ χ2(n)

3. XとY は独立

このときY ∼ χ2(m− n)

31

Page 33: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

証明:XとY は独立なので,任意のtについて

MX+Y (t) = MX(t)MY (t)

したがって

MY (t) =MX+Y (t)

MX(t)

=(1− 2t)−m/2

(1− 2t)−n/2

= (1− 2t)−(m−n)/2

これはχ2(m− n)のmgf.

32

Page 34: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

定理 8. H0の下で

Sb

σ2∼ χ2(k − 1)

証明:H0の下で

S

σ2∼ χ2(n− 1)

Sw

σ2∼ χ2(n− k)

SwとSbは独立なので,補題より

S

σ2− Sw

σ2∼ χ2(k − 1)

33

Page 35: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

系 1. H0の下で

Sb/(k − 1)

Sw/(n− k)∼ F(k − 1, n− k)

定義 15. 1元配置分散分析表は

自由度 変動 分散 F値群間 k − 1 Sb Sb/(k − 1) [Sb/(k − 1)]/[Sw/(n− k)]

群内 n− k Sw Sw/(n− k)

計 n− 1 S S/(n− 1)

34

Page 36: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

2.4 2元配置分散分析

2つの因子A, Bを考える.因子Aの水準をj = 1, . . . , J,因子Bの水準をk = 1, . . . ,Kとする.

定義 16. 2元配置分散分析モデルはj = 1, . . . , J ,

k = 1, . . . ,K, i = 1, . . . , nj,kについて

yj,k,i = µ+ αj + βk + γj,k + uj,k,i

uj,k,i ∼ N(0, σ2

)注:αj , βkを主効果, γj,kを交互作用という.

35

Page 37: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

注:j = 1, . . . , J , k = 1, . . . ,K, i = 1, . . . , nj,kについてxj,k,i := j,zj,k,i = kとすると

yj,k,i = µ+J∑

j′=1

αj [xj,k,i = j′] +K∑

k′=1

βj [zj,k,i = k′]

+

J∑j′=1

K∑k′=1

γj,k[xj,k,i = j′][zj,k,i = k′] + uj,k,i

すなわちダミー変数とその交差項を説明変数とした線形回帰モデルとなる.

36

Page 38: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

今日のキーワード総変動,回帰変動,残差変動,決定係数,自由度修正済み決定係数,重相関係数,総平均,因子(要因),(因子の)水準,(水準の)効果,1元配置分散分析モデル,群内変動,群間変動,1元配置分散分析表,2元配置分散分析モデル,主効果,交互作用

37

Page 39: 第26 回 決定係数と分散分析(3.4, 13ymurasawa.web.fc2.com/us-sl26.pdf1.3 重相関係数(pp. 63, 272) 定義 6. yi とy^i の相関係数を,yi とxi の重相関係数という.

次回までの準備復習 教科書第3章4節,第13章4節試験 (1)教科書を読む(2)用語の定義を覚える(3)復習テストを自力で解く(4)過去問に挑戦

38