医学統計勉強会 第 2 回 回帰分析
1
医学統計勉強会
東北大学病院循環器内科・東北大学臨床研究推進センター 共催
東北大学大学院医学系研究科 EBM 開発学寄附講座
宮田 敏
Absence of evidence is not evidence of absence!
- Carl Sagan -
医学統計勉強会 第 2 回 回帰分析
2
第 2 回 回帰分析 1. 線形回帰モデル
第 1回で取り上げた「基本統計量」は、単独の変数の持つ特徴、傾向、分布を
解析するものでした。しかし、自然科学、社会科学において取り扱われる現象
の多くは、複数の要因が相互に依存しあって成り立っています。今回取り上げ
る回帰分析 (regression analysis) は、多数の変数の間の関係を解析する多変量
解析 (multivariate analysis) と呼ばれる手法の一つで、一つの連続数(実数)
の値を複数の変数によって説明、予測する統計モデルになります。
多数の変数の間の関係を解析するのが回帰分析の目的ですが、最初は 2 変数の
間の関係を解析することから始めます。
1. 1 二変量データの解析
いま、x と y、2 つの変数の組が n 組得られたとします。
nn yxyxyx ,,,,,, 2211
このとき、x と y の関係を推測することを目的とします。例として、以下のもの
を考えます。
Example 1: Galton の親子の身長のデータ
図 1.1 は、205 組の夫婦の平均身長(インチ単位)と、彼らから生まれた 928人の成人した子供の身長の関係を図示したものです。データは 0.1 インチ単位に
丸められているため、格子点上に分布しています。また、そのために多くのサ
ンプルが同じ位置にプロットされています。図 1.1 から明らかな通り、身長の高
い両親からは身長の高い子が生まれる傾向があり、親子の身長の間には正の相
関関係があることがわかります。(「相関」という概念については、すぐ後で詳
述します) なおこのデータは、Galton, F. (1886) で取り上げられたものですが、筆者の
Francis Galton は回帰分析や相関係数の概念を提唱した人物として知られてお
り、この親子の身長のデータは回帰分析の歴史のごく初期の例として有名です。
医学統計勉強会 第 2 回 回帰分析
3
図 1. 1
Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal of the Anthropological Institute, 15, 246-263 1. 2 二変量データの要約
基本統計量の解説で強調した通り、データ解析の第一歩はデータを数値的、視
覚的に要約し、データの持つ特徴、傾向を把握することにあります。
二変量データを視覚的に要約するもっとも簡単な方法は、図 1.1 にあるように
二つの変数の値を二次元平面にプロットしたもので、これを散布図 (scatter plot)
と呼びます。
一方、二変量データを数量的に要約するには、1)個々の変数に対する通常の数
値的要約と、2)二変量の関係の強さを要約する「共分散」「相関係数」の概念
があります。
1)個々の変数に対する数量的要約:Galton の親子の身長
Min. 1st Qu. Median Mean 3rd Qu. Max. SD IQR
parent 64 67.50 68.5 68.31 69.5 73 1.79 2
child 61.7 66.20 68.2 68.09 70.2 73.7 2.52 4
64 66 68 70 72 74
6264
6668
7072
74
parent
child
医学統計勉強会 第 2 回 回帰分析
4
parent, child 各変数の要約統計量を見ると、平均、中央値がほぼ等しく分布の
中心は同じである一方、標準偏差(SD)、四分位点間距離(IQR)を見ると、childの散らばりの方が大きいことがわかります。このことは、以下のヒストグラム、
ボックスプロットを用いた視覚的要約でも確認することが出来ます。
図 1.2
2)共分散、相関係数
二変量のデータが存在し互いに影響し合っているとき、二つの変数がいかに影
響し合っているかを定量的に理解することを考えます。このとき、よく用いら
れる統計量に以下の共分散と相関係数があります。
定義:今、 xn yxyx ,,,, 11 が与えられたとする。このとき xと y の間の共分散
を以下で定義する。
n
i ii yyxxn
yx1
1,Cov
共分散の性質:
xと y の間に正の(負の)相関があるとき、Cov(X, Y)はそれぞれ正(負)になる。
従って、共分散を考えるときは共分散の符号が問題で有り、共分散の値そのも
のはあまり問題になりません。共分散の値は xと y の単位に依存しますが、単位
は二つの変数の相関にあまり関係がありません。
Histogram of parent
parent
Fre
quen
cy
62 64 66 68 70 72 74
01
0020
0
Histogram of child
child
Fre
que
ncy
62 64 66 68 70 72 74
05
01
50
parent child
62
64
66
68
70
72
74
医学統
二つ
次の
xと
分は
るの
定義
する
Cor
相関
相
近
相
統計勉強会
つの変数の間
のようなもの
y の間に正
は第 1,3 象
ので、共分散
義: yx ,, 11
。
ryx,rr
関係数の性質
相関係数は
近いほど、
11 r 1 r
相関係数は
間に正の相
のです。
正の相関が
象限に存在し
散
n
in
11
xn yx ,, が
n
in
n
1
1
1
質:
は、xと y の
xと y の関
:正(負)
は xと y の単
相関があると
あるときデ
します。第
iyxx1
が与えられ
i
n
i i
nxx
xx
2
1
1
の線形関係
関係は直線
の完全な
単位に依存
とき,共分
図 1.3
データ領域
1,3 象限の
y も正に
れたとき、
n
i i
i
yyn
yy
1
係の強さを測
線に近い。
な相関。線形
存しない。
分散が正の値
を yx, で分
のいずれで
になります。
xと y の間
n
iy 2
測る尺度。
形関係。
第
値をとる直
分割すると、
でも 1 xx
。
間の相関係数
n
i
n
i i
xx
xx
1
2
1
相関係数の
第 2 回 回帰
直感的な説明
、データの
0 yyi
数を以下で
n
i i
i
y
yyx
1
の絶対値が
帰分析
5
明は
の大部
0とな
で定義
y 2
が 1 に
医学統
例、
Galtます
あり
の直
1. 3
いま
xと
ただ
resp
inde
regr
こ
係を
際に
統計勉強会
共分散、相
ton の親子
す。共分散、
ます。また
直線関係は強
3 回帰分析
、二つの変
y の関係を
だし、(左辺
ponse vari
ependent v
ression coe
のうち、 y
を示していま
に観測される
相関係数:
子の身長のデ
相関係数
た、相関係数
強くもなく
析
変数 xと y の
を以下の回帰
辺の)説明さ
able,(右
variable と
efficient、
xy 10
ます。実際
る被説明変
Galton の
データの場
数が正の値で
数の絶対値
弱くもない
の関係が線
帰式 (regr
yi 0
される変数
辺の)説明
と呼びます。
を誤差項
xを真の回
のデータに
変数 y の値は
の親子の身長
場合、共分散
ですから、
値は 0 と 1 の
い、といっ
線形(直線)
ression equ
ix ii ,1
数 y を,従属
明する変数
。また、未
項、撹乱項、
回帰関数とよ
にはランダ
は「真の回
図 1.4
長
散=2.064、親と子の身
の間くらい
ったところで
で近似でき
uation) で
ni ,,1
属変数、被
数 xを独立変
未知のパラ
、error ter
よび、 xと
ムな誤差回帰関数+誤
第
相関係数=
身長の間に
いであり、二
です。
きるとしま
でモデル化し
被説明変数、
変数、説明
メター 0 ,
rm と呼び
y の間に想
が含まれて
誤差」にな
第 2 回 回帰
=0.459 と
には正の相関
二つの変数
ます。そのと
します。
、応答変数
明変数、共変
1 を回帰係
ます。
想定した関
ているので
なっています
帰分析
6
なり
関が
数の間
き、
数、
変量、
係数、
数関
で,実
す。
医学統計勉強会 第 2 回 回帰分析
7
回帰モデルの仮定:
線形性 (linearity):被説明変数 y と説明変数 x の関係は直線で近似できる。
独立性 (independence):サンプル xn yxyx ,,,, 11 は互いに独立である。す
なわち,あるサンプルの値が他のサンプルの値に影響を与えない。
正規性 (normality):撹乱項は期待値 0,分散 2 の正規分布に従う。正規
分布については、以下に説明する。 2,0~ N
等分散性 (homoscedasticity):撹乱項の分散は(従って、被説明変数 y の
分散も) 2 で一定である。 .22 EV
以上の仮定に従って、未知の回帰係数と真の回帰関数を推定するわけですが、
その前に、上の回帰モデルの仮定に出てきた「正規分布」という確率分布につい
て解説しておきます。
1. 4 正規分布
正規分布 (normal distribution) は、最も代表的な連続型の(実数値をとる)確
率分布といえます。正規分布は自然界の様々な局面で登場しますが、特に計測
値に含まれるランダムな測定誤差を表すのに用いられています。
正規分布の確率密度関数は、以下のように与えられます。(「確率密度関数」と
いう概念については、数理統計学の教科書を参照してください。)
.,2exp2
1 22 xxxf
図 1.5:標準正規分布の確率密度関数
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Standerd Normal Distribution
医学統計勉強会 第 2 回 回帰分析
8
正規分布の特徴:
i. ., 2 XVXE 正規分布は期待値(平均)= 、分散= 2 。 ii. 正規分布の分布型は、 と 2 で特徴付けられる。すなわち、 あるいは 2 が
異なれば、異なる種類の正規分布になる。 iii. 特に、期待値=0,分散=1 の正規分布を、標準正規分布 (standard normal
distribution) と呼ぶ。 iv. 釣り鐘型 (bell-shaped) で、左右対称な分布。
正規分布の極めて有用な性質:
前に述べたとおり、正規分布は様々な場面における測定誤差をモデル化するの
に有用です。さらに,以下に述べるとおり様々な確率的現象が正規分布で近似
される、という性質を持つため,正規分布は極めて重要な確率分布となってい
ます。
確率変数の標準化 (standardization):
いま、X を期待値(平均)= 、分散= 2 である確率変数とする。 このとき、 XZ とすると、
.111
,0
222
XVXV
XEZE
すなわち、任意の確率変数 X に対して、 XZ は必ず期待値=0、分散=1を持つ。この、 XZ なる変換を確率変数 X の標準化 (standardization)
と呼ぶ。
正規確率変数の標準化:
上で述べた確率変数の標準化は任意の確率変数に対して成り立つが、特に、X が
期待値= 、分散= 2 の正規分布に従うとき(このことを 2,~ NX と表す)、 正規確率変数 X の標準化 XZ は期待値=0,分散=1 の標準正規分布
1,0N に従います。
上の正規分布の特徴 (ii) で述べたとおり、正規分布は と 2 が異なれば別の
正規分布になりますが、標準化により全ての正規分布は 1,0N に帰着します。
中心極限定理 (Central Limit Theorem, CLT):
中心極限定理は,任意の確率分布から得られたサンプルの標本平均の分布は,
サンプル数が大きくなるとき正規分布で近似できる,という重要な定理です。
医学統計勉強会 第 2 回 回帰分析
9
定理:中心極限定理
nXX ,,1 を独立かつ同一の分布に従う確率変数とする。ただし、
2, XVXE とする。このとき、標本平均の分布は正規分布に収束する。
nnNXn
Xn
ii ,,
1 2
1
中心極限定理では、元のデータ nXX ,,1 がどのような確率分布に従うか仮定さ
れていないことに注意してください。すなわち、どのような確率的現象から出
発しても、十分多くのサンプルを集めれば、標本平均の性質は正規分布という
特定の確率分布で解析できることを示しています。
中心極限定理と正規確率変数の標準化:
さらに、上に述べた標準化と中心極限定理を組み合わせれば、以下の結果を導
くことができます。
nXX ,,1 を独立かつ同一の分布に従う確率変数とする。 2, XVXE と
すると、 nXVXE 2, となる。このとき標準化した標本平均の分布は標
準正規分布に収束する。
nNn
XZ ,1,0
この結果はきわめて強力であって、元データがいかなる確率分布に従おうとも、
サンプル数が十分大きければすべての議論は標準正規分布というただ一つの分
布に帰着してしまうことを意味します。
1. 5 回帰係数の推定
与えられたデータ xn yxyx ,,,, 11 に対して、未知の回帰係数 10 , を推定し、
回帰式 iii xy 10 を当てはめることを考えます。説明変数 ixx が与えら
れた時、推定された(説明された)回帰式の値は ix10 となります。このと
医学統
き i
誤差
で回
ずれ
義す
明変
ます
最小
推定
最小
不
正
統計勉強会
番目のサン
差項 ii y
回帰によって
れの値もとり
することにし
変数の値 iy の
すから、この
小二乗推定量
定された回帰
小二乗推定量
不偏性 (un
正規性 (no
0 ~ N
ただし
ンプルとし
ix10
て説明でき
りますから
します。こ
の変動のう
の
n
i i1
2 が
量 (Ordina
帰直線: y
量の性質:
nbiasednes
ormality):
2ˆ00
ˆ,,
N
し、
2ˆ0 n
して観察され
になりま
なかった部
、被説明変
このとき残差
ち、回帰に
が最小にな
ary Least S
x10ˆˆ
s): 0 E
11 ,~ˆ N
2
22
xx
x
i
i
れた被説明
す。つまり
部分に当た
変数 iy と真
差二乗和
によって説
るように回
quares Est
x
10ˆ, E
2
1
2
ˆ1
,
明変数の値 y
り、誤差項
たります。誤
真の回帰モデ
n
i i1
2 は、
説明できなか
回帰式を推
timator, OL
1
2
2
xxi
第
iy と回帰式
項とは被説明
誤差項その
デルの「乖
データ全体
かった変動
定すること
LSE):
第 2 回 回帰
式の値の差
明変数の値
のものは正負
乖離」を 2i
体における
動の総和にな
とを考えま
帰分析
10
は、
値の中
負い
で定
被説
なり
す。
医学統
回
ただ
回
検
ただ
るこ
下に
(使
回
回
回
決
M
p
撹
統計勉強会
回帰係数の
回帰係数
0 の信頼区
1 の信頼区
だし、j
s:
回帰係数に
0 : jH
検定統計量
だし、 0j は
とが多い。
に示すのは、
使用したソフ
回帰分析の解
回帰係数の
回帰係数の
決定係数
Model utilit
p 値
撹乱項の標
の信頼区間
数 10 , の信
区間:
区間:
j の標準誤
に関する仮
10 : vs.j H
量:ˆ
st j
は帰無仮説 H
回帰分析
フトは R v解析結果を
の推定値
の有意性検定
(被説明変数
ty test(回帰
標準誤差
(Confiden
信頼区間は,
,2ˆ00
ˆ ts
,2ˆ11
ˆ nts
誤差、 2,2 nt
説検定
0jj
2ˆ
0 ~ ts n
j
j
H0 の元で仮
析を行う統計
ersion 3.0を検討すると
定の p 値
数の変動の
帰モデル全
nce Interva
以下のよ
ˆ02,ˆ, n s
ˆ121
ˆ, n s
2:自由度
0under H
仮定される
計解析ソフ
.1) ときは,以
のうち回帰
全体の有意性
al, CI):
ように与え
2,20
nt
2,2 nt
n-2 の t 分布
る定数で、通
フトの典型的
以下の点に注
によって説
性検定。後
第
られます。
布の上側
通常 :0H
的な出力例
注意します
説明された
後でもう一度
第 2 回 回帰
2 点。
0j が検定
例になります
す。
変動の割合
度触れます
帰分析
11
定され
す。
合)
す)の
医学統計勉強会 第 2 回 回帰分析
12
1. 6 多変量回帰分析
前項までは,説明変数が一つのいわゆる単純回帰 (simple regression) について解
説してきました。本項以降では,複数の説明変数を持つ多変量回帰分析
(multivariate regression analysis) について検討します。
多変量回帰の場合、モデルを記述するのには行列表示を用いた方が便利です。
まず、行列を使って回帰モデルを定式化します。
niNxxy iikikii ,,1,,0~, 2110
行列表示を使うと、上の多変量回帰モデルは以下のように簡潔に表せます。
matrix.identity ldimensiona-:,,~
,,,
1
1
1
,
,
2
2
1
1
0
1
212
111
2
1
nIIN
xx
xx
xx
y
y
y
nn
nkknn
k
k
n
0
Xy
Xy
前項の単純回帰の場合と同様、残差二乗和
n
i i1
2 を最小化すると回帰係数
k ,,, 10 の最小二乗推定量 (Least Squares Estimators, LSE) は、以下のよ
うに得られます。
yX'XX' 1
1
2110
,,,
ˆ
min10
n
i kikii xxyk
最小二乗推定量の性質:
不偏性 (unbiasedness): ˆE
正規性 (normality): 12,~ˆ XX' N
医学統計勉強会 第 2 回 回帰分析
13
回帰係数の信頼区間 (Confidence Interval, CI):
j の信頼区間: 1,2ˆ1,2ˆˆ,ˆ
knjknj tstsjj
ただし、 2112ˆ ' jjXXss
j
: j の標準誤差、 1,2 knt :自由度 n-(k+1)の t 分布
の上側 2 点。
22
2
22 ,1
ˆˆ
sE
kn
yys ii
回帰係数に関する仮説検定
0100 : vs.: jjjj HH
検定統計量: 01ˆ
0 under ~ˆ
Hts
t knjj
j
ただし、 0j は帰無仮説 H0 の元で仮定される定数で、通常 0:0 jH が検定され
ることが多い。
決定係数:
上で述べた回帰係数の有意性検定は,個々の係数が有意か(主として 0に等し
いか否か)を検定するものでした。しかし、回帰モデル全体の有意性を議論す
るためには,別の概念が必要になります。そのために、まず以下を定義します。
SST (Total Sum of Squares):
n
i i yy1
2 被説明変数 y の、データ全体にお
ける変動(全変動)を示します。SST を(n-1)で割ると y の分散になりますね。
SSE (Error Sum of Squares):
n
i ii yy1
2ˆ iy は回帰モデルによって推定さ
れた y の値ですから、 ii yy ˆ は y の中で回帰によって説明されなかった部
分でこれを残差 (residuals) といいます。SSE は y の回帰では説明されなか
った変動を表します。
SSR (Regression Sum of Squares):
n
i i yy1
2ˆ iy は回帰によって説明され
た(推定された) y の値です。一方もし回帰モデルが存在せず、説明変数 x
医学統計勉強会 第 2 回 回帰分析
14
の情報なしに y の値を推定するとすれば、それは y の平均値 y で推定するし
かありません。すなわち yyi ˆ は、回帰モデルを適用することで初めて説
明できた y の変化を示しており、SSR は y の回帰によって説明された変動を
表しています。
このとき、以下の定理が成立します。
定理:SST =SSR + SSE
(証明略)
以上の概念を用いて、回帰モデル全体のパフォーマンスを評価する尺度として、
以下のものを定義します。
定義:決定係数 (coefficient of determination) SSTSSRR 2
すなわち決定係数とは、被説明変数 y の変動のうち、「回帰によって説明された
変動の割合」を示しています。上の定理から、 10 2 R であり、 2R が 1に近い
ほど回帰は有効である、といえます。
Model Utility Test: さらに、決定係数 2R を使って、以下の仮説を検定することが
できます。
0: 10 kH vs. not H0
この検定を Model utility test といいます。まず、帰無仮説の意味を考えてみます。
もし帰無仮説 H0 が真であるとすると、回帰式は 0y となり、説明変数 x
は被説明変数 y を説明するのに、全く役に立たないということになります。も
し対立仮説 H1 が正しければ、いずれかの説明変数がなにがしかの説明力を持つ
ということになります。
この Model utility test の検定統計量は、以下で与えられることが知られています。
01,2
2
under ~111
HFknSSE
kSSR
knR
kRF knk
医学統計勉強会 第 2 回 回帰分析
15
1. 7 回帰診断 (Regression diagnostics)
これまでの解析で、多変量の回帰モデルを推定し、その結果を解釈するところ
まで来ました。しかし、ここで解析を終わらせるわけにはいきません。なぜな
ら、仮にいま手元にあるデータに回帰分析を適用したとして、そのデータにお
いて回帰モデルに必要な前提条件が満たされているとは限らないからです。
ここで、回帰モデルの仮定を再掲すると以下の通りです。
回帰モデルの仮定:
線形性 (linearity):被説明変数 y と説明変数 x の関係は直線で近似できる。
独立性 (independence):サンプル xn yxyx ,,,, 11 は互いに独立である。す
なわち,あるサンプルの値が他のサンプルの値に影響を与えない。
正規性 (normality):撹乱項は期待値 0,分散 2 の正規分布に従う。正規
分布については、以下に説明する。 2,0~ N
等分散性 (homoscedasticity):撹乱項の分散は(従って、被説明変数 y の
分散も) 2 で一定である。 .22 EV
この回帰モデルの仮定がすべて満たされていない限り、推定や仮設検定の結果
は(仮に計算できたとしても)まったくナンセンスなものとなります。
この回帰モデルを成り立たせている前提条件を事後的に確認することを、回帰
診断 (regression diagnostics) といいます。
また、多重回帰モデルに特有の問題として、もし説明変数の間に線形関係があ
るならば、パラメターの推定が不安定になる、という多重共線性
(multicollinearity) という現象が知られています。これは、数学的には回帰式
Xy において、もし説明変数が一次従属の関係にあると XX' が「特異」
行列になり、最小二乗推定量 yX'XX' 1ˆ の中の 1XX' が定義できなくなる
のが原因です。( XX' が完全に特異でなくても、 1XX' の計算が非常に不安定
なんる)直感的には、複数の説明変数が比例関係にあるとき、それらの変数が
本質的に同じ情報を持ち冗長であるのが、多重共線性であるといえます。この
多重共線性を発見することも、回帰診断の目的の一つになります。
医学統計勉強会 第 2 回 回帰分析
16
上に示した回帰モデルの仮定は、1)x, y にかかわるもの、2)撹乱項にかかわる
もの、の二つに分けられます。
線形性の仮定の確認と多重共線性の有無の確認は 1)にかかわる問題ですが、こ
れは各変数間の散布図を用いるのが適当です。
線形性の仮定:被説明変数と説明変数の間に、非線形な関係が存在しないこと
を確認する。(x, y の間に相関がないように見える場合も、モデルに含めて結構
です。相関がなければ、「有意ではない」という結果が出るだけです。)
多重共線性:説明変数相互の間に、線形関係が存在しないことを確認する。
一方、独立性、正規性、等分散性の仮定の確認は、2)にかかわります。しかし
撹乱項そのものはデータから観察することはできませんので、それに代わるも
のが必要になります。
定義:残差 (residuals) iii yye ˆ .すなわち残差とは、被説明変数 y と推定さ
れた回帰式の値の差になります。
定義:残差プロット (residual vs. fitted value plot) 縦軸に残差 ie 、横軸に推定さ
れた回帰式の値 iy をとった図。撹乱項と被説明変数の関係を示すものとして、
独立性、等分散性の仮定の確認に用いられる。
図 1.6 左は、説明変数 x の値が大きくなるにつれ被説明変数 y の分散が増大する
傾向のあるデータの例と、それにあてはめられた回帰直線を示しています。一
方図 1.6 右は、左図のデータから構成した残差プロットを示していますが、図の
右のほうに行くにしたがって残差の分散が大きくなることがわかります。
このように、残差プロットではプロットの中で残差の範囲が変動することを見
ることで、等分散性の仮定が満たされているかを判断できます。等分散性の仮
定が満たされていれば、残差の範囲は均一になります。
また、独立性の仮定が満たされる場合、残差プロットには特異なパターンが現
医学統計勉強会 第 2 回 回帰分析
17
れず、残差プロット一面に一様に点が現れることが知られています。
図 1.6
正規性の確認:
標本分布の正規性の確認は、適切なモデルを選択する上で重要なものとなりま
す。正規性の仮定は後述する “QQ-norm plot” という図で確認しますが、
QQ-norm plot を定義するため、まず次の概念を導入します。
定義:n 個の標本を大きさ順に並べたとき、i 番目に小さな標本は [100(i-.5)/n] 標
本パーセント点 (sample percentile) であるという。
例えば標本が、正規分布など特定の確率分布から抽出されたとします。このと
き、その特定の分布の理論上の [100(i-.5)/n] パーセント点はデータの
[100(i-.5)/n] 標本パーセント点の近くにあるはずです。したがって、正規分布の
理論上のパーセント点と標本パーセント点をプロットすれば、もし元のデータ
が正規分布から生成されていた場合プロットが直線状に並ぶはずです。
定義:n 個の標本が得られたとき,標準正規分布の[100(i-.5)/n] パーセント点と,
i 番目に小さな観測値= [100(i-.5)/n] 標本パーセント点のプロットを、QQ-norm
plot (Normal probability plot, 正規確率プロット) という。
回帰モデルの正規性の仮定を確認するためには、回帰から得られた残散の
QQ-norm plot を描き、プロットが直線状に並ぶかどうかを確認すればよい、と
いうことになります。
-2 -1 0 1 2 3
-4-2
02
4
x
y
-1 0 1 2-6
-4-2
02
4
fitted values
resi
dua
ls
医学統
例:
209 種
めた
syct
mmin
mma
cach
chmi
chma
perf
P. Ei
units
Vena
editio
まず
CPU
y
–
誤
–
x
–
統計勉強会
CPU データ
種類のコン
たデータ。特
cycle ti
n minimu
ax maximu
cache s
in minimu
ax maximu
publish
n-Dor and J
s: a relative
ables, W. N.
on. Springe
ず、各変数の
U データの散
y と x の間
– perf と
誤差項の分
– mmin
x 同士の間
– 例えば
タ
ンピュータ
特性値の値
ime in nano
um main me
um main m
size in kilob
um number
um number
hed perform
J. Feldmess
e performan
and Ripley
er.
の散布図を
散布図を観
に,非線形
と syct の間
分散は一定
等に,明ら
間に,線形な
ば,mmin と
図 1.7
の中央演算
値から、CPU
seconds
emory in kil
emory in ki
bytes
of channels
r of channel
mance on a b
ser (1987) A
nce predictio
y, B. D. (200
を示すと図
観察すると、
形な関係が
間に,明ら
か?
らかな分差
な関係が存
と mmax の
7:QQ-norm
算装置(CP
U の性能 (
lobytes
ilobytes
s
s
benchmark m
Attributes of
on model. C
02) Modern A
1.8 のよう
、以下のよ
が存在しない
かな非線形
差増大傾向が
存在しないか
の間に明ら
m plot
PU)の性能
(perf) を予
mix relative
f the perform
Comm. ACM
Applied Sta
になります
うな問題点
いか?
形関係があ
がある。
か?
かに線形関
第
能と、各種の
予測するのが
e to an IBM
mance of ce
M. 30, 308–3
atistics with
す。
点があるの
る。
関係がある
第 2 回 回帰
の特性値を
が目的。
M 370/158-3
entral proce
17.
h S. Fourth
のがわかりま
。
帰分析
18
をまと
essing
ます。
医学統
した
は不
と、
統計勉強会
たがって、予
不適切である
結果は次の
050
015
000
3000
00
2040
予備的な視
ることがわ
のようにな
perf
0 5
050
015
00
s
030
000
020
40
0 400 1000
視覚的要約の
わかります。
なります。
500 1500
syct
mmin
0 15000
図 1.8
の段階でも
。しかしと
0 30000
n
mmax
0
も、線形回
ともかく、
0 20
cach
chm
100 250
第
帰モデルを
回帰モデル
40
min
0 50 150
chmax
第 2 回 回帰
を当てはめ
ルを当ては
040
010
000
1500
00
100
250
050
150
帰分析
19
めるの
はめる
医学統
元デ
説
決
M
すな
か言
よる
疑問
定が
した
図 1.
図か
(inve
一方
する
ロッ
いこ
分析
がわ
最後
計算
とを
統計勉強会
データの回帰
説明変数の
決定係数:
Model utilit
なわち、回帰
言いようがな
視覚的なデ
問があり、ま
が満たされて
た。
.9 左は、元デ
から明らかな
erse S-shape
方図 1.9 左は
傾向がみら
トは明らか
とがわかり
析の仮定が満
わかります。
後に、このよ
算の出力から
を強調してお
帰分析の結
の有意性検定
R2=0.8649
ty test: p-va
帰分析の出
ない、とい
データの要
また、多重
ているか確
データに対
なとおり、
e) を描いて
は、残差プロ
られ、等分
かに非線形
ります。こ
満たされて
ように元デ
らは決して
おきます。
結果、次のよ
定は,chm
9 被説明変
alue < 2.2×1
出力結果を見
うことにな
要約の結果、
重共線性の存
確認するため
対する回帰分
QQ-norm p
ており、残
ロットを示
分散性の仮定
形な傾向を示
このように、
ておらず、回
データにおい
てわからず回
(回帰診断
ようなこと
min を除き
変数の変動
10-16
見る限り、
なります。
、線形性の
存在も予想
め、残差の
図 1.9
分析による
plot の点は
残差の非正規
示しています
定が破れて
示しており
、回帰診断
回帰分析を
いて回帰モ
回帰診断に
断の重要性)
がわかりま
,ほとんど
動の 86.49%
この回帰分
しかし、も
の仮定、等分
想されました
のプロットに
る残差の QQ
は直線からか
規性を示し
す。まず図
ていることが
、線形性の
断を行うこと
を適用するこ
モデルの仮定
によってはじ
)
第
ます。
どが強く有
%が説明で
分析は成功
もともと図
分散性の仮
た。そこで
による回帰
Q-norm plo
かけ離れた
しています。
図からは残差
がわかりま
の仮定も満
とで元のデ
ことは不適
定が破綻し
じめてわか
第 2 回 回帰
有意.
きた.
功している
1.8 の散布
仮定には大き
で、モデルの
帰診断を行い
ot になりま
た逆 S 字型
。
差の分散が
ます。また、
満たされてい
データでは回
適切であるこ
していること
かる、とい
帰分析
20
とし
布図に
きな
の仮
いま
ます。
が増大
、プ
いな
回帰
こと
とは、
うこ
医学統計勉強会 第 2 回 回帰分析
21
1. 8 変数変換
前項でみたとおり、回帰モデルの仮定が満たされていないときは、直接回帰モ
デルを適用することはできません。(モデルを適用すること自体はできるかもし
れませんが、解析結果の解釈は不能で、仮設検定その他の推測も理論的に正当
化できません。)
線形回帰モデルの仮定(線形性, 正規性, 等分散性)が満たされないとき、変数
に何らかの変換を施すことで、モデルを改善できる場合があります。
例えば、撹乱項の分散が説明変数の値とともに大きくなる場合、対数変換
(logarithmic transformation)、冪変換 (power transformation) によって、モデ
ルの仮定が満たされるようにモデルを修正できる場合があります。
被説明変数の予測値を得るには、まず変換された被説明変数に対して回帰モデ
ルを当てはめ、そのあとで元のモデルに逆変換します。(例えば、対数変換→
指数変換)もっともよい返還を選ぶため、いくつかの返還を試してみる必要が
あります。
ただしこれら対数変換、冪変換などは、その変換を選択した根拠が恣意的なも
のとならざるを得ず、また、その変換によってモデルが改善したことを理論的
に示すことも困難です。このようなとき、対数変換,冪変換を組み合わせた
Box-Cox 変換により、分散の安定化と正規性の改善を同時に達成できる場合が
あります。
定義:Box-Cox 変換
0 :log
0 :1
yy
Box, George E. P.; Cox, D. R. (1964). "An analysis of transformations". Journal of the
Royal Statistical Society, Series B 26 (2): 211–252.
Box-Cox 変換は、パラメターλによって特徴付けられる。パラメターλは、モデ
ルの適合度を最適化するように、ソフトウエアにより自動的に選択される。
例えば、統計解析ソフト R などは、Box-Cox 変換を実装している。
医学統
参考
with
例:
VenaCP
その
ータ
c 決
M 回帰
上に
の範
こと
統計勉強会
考文献:Ven
h S. Fourth
CPU データ
ables and U データに
の結果、Boxタに対する
chmin,ch決定係数:
Model util
帰診断のため
にプロットさ
範囲は均一で
がわかりま
nables, W.
h edition.
タの Box-C
Ripley (20に対して B
x-Cox 変換
回帰分析の
hmax は有
R2=0.882
lity test: p
めの残差プ
され、正規
で、分散が
ます。
N. and Ri
Springer.
Cox 変換
002), §6.8Box-Cox 変
換の最適な
の結果は、
有意ではない
21 被説明
-value < 2
プロットは、
規性が向上
が安定化され
ipley, B. D
8とR vers換を行いま
λは、λ= 以下の通り
い. 明変数の変動
2.2×10-16
、以下の通
したことが
れ全体とし
. (2002) M
sion 3.0.1, ました。
0.2929 と
りです。
動の 88.21
通りです。Qがわかりま
して回帰モ
第
Modern App
MASSパッ
なりました
1%が説明で
QQ-norm pす。また、
デルの仮定
第 2 回 回帰
plied Stati
ッケージを
た。返還後
できた。
plot はほぼ
残差プロ
定が満たさ
帰分析
22
tistics
を用い、
後のデ
ぼ直線
ロット
された
医学統計勉強会 第 2 回 回帰分析
23
Take Home Message
1. 回帰分析
2. 共分散と相関係数
3. 線形回帰モデル 回帰係数の推定.最小二乗推定量の性質
4. 回帰診断:回帰モデルの仮定の確認 散布図:線形性の確認 QQ-norm プロット:残差の正規性の確認 残差プロット:等分散性,独立性の確認
5. Box-Cox 変換:分散の安定化と正規性の向上
以上