第六章 直线相关与回归
Post on 30-Dec-2015
112 Views
Preview:
DESCRIPTION
TRANSCRIPT
第六章 直线相关与回归
医学统计学及其软件包
上海第二医科大学
生物统计教研室
分析两个变量间的关系常用回归及相关分析的统计方法。
如两个变量间的关系是线性的,可用直线相关与回归分析;如两个变量间的关系是非线性的需用非线性(曲线)回归。
回归分析适用于分析变量间的因果关系;用一个自变量的值来估计另一个应变量的值。
相关分析用于分析两变量间相互联系的密切程度及相关方向。
第一节 概述
第二节 相关系数 相关分析的目的在于通过相关系数 r 来描述和度量两变量线性联系的程度和方向。
r>0 正相关 图例1
r<0 负相关 图例2
r=0 零相关 图例3
零相关即两变量间无关。
样本相关系数不等于零,并不表示总体相关系数不等于零,还要作显著性检验。 next
2. 5
2. 7
2. 9
3. 1
3. 3
3. 5
3. 7
40 45 50 55 60
r=0.7495
回
2. 52. 62. 72. 8
2. 93
3. 13. 2
40 45 50 55 60 65
r=-0.83597回
相关系数的计算:
xxx
22 yyxx
yyxxr
nyxxyyyxx
X 和 Y 的离均差积和
nxxxx222
X 的离均差平方和
相关系数的显著性检验
0:0: 10 HH
2
1 2
n
rsr
2 ndfs
rt
rr
样本相关系数的标准误
查 t 界值表,得 P 值
例 6.1 极谱法和碘量法测定水中溶解氧的含量,两法的测得值是否有相关性?
63.32)( 211 xx
01.93)( 222 xx
95.54))(( 2211 xxxx
9975.0r
82.46rt 11df
01.0P 两法的测得值有相关( P<0.01)
第三节 直线回归方程
目的:找出描述 x 与 y 依存关系的直线方程。
bxay ˆY 为应变量( dependent variable)
X 为自变量( independent variable )
A 为截距( intercept )
b 为回归系数( regression coefficient )
回归系数 b 表示 x 每改变一个单位, y 平均改变 b 个单位。
Y=10x+5
=4.22+0.20x
体重 心脏横径
y
设有 n 对 x , y 的观察值,先在直角坐标系中作散点图 , 如果散点的分布呈直线趋势,则可设法求出直线方程。
通常用最小二乘法,依据:各点与该直线的纵向距离的平方和为最小
先由 (6.3) 式求得 b ,再由 (6.4) 式求得 a, 就得出直线回归程。
])(/[))(( 2xxyyxxb
xbya
x
y
bxay ˆ
ii yy ˆ
2)ˆ( yy
最小
2)ˆ( yy 2)ˆ( yy
2)ˆ( yy
回归系数的显著性检验 从样本资料中算得的回归系数 b ,也有抽样误差,因此需作显著性检验,检验其是否是回归系数为零的总体中抽得的。
H0:β=0 H1:β≠0 。
当拒绝 H0 时,可认为 x 与 y 间的直线回归方程有统计学意义。
显著性检验可有两种方法: t 检验法和方差分析法。
t 检验法 :
bb sbt / 2ndf
2. )(/ xxss xyb
样本回归系数的标准误
)2/()ˆ( 2. nyys yx
剩余标准差
2)ˆ( yy 估计误差平方和
2222 )(/)])(([)()ˆ( xxyyxxyyyy
方差分析法:
Y 的总变异X 和 Y 的线性关系引起的变异
误差引起的变异
222 )ˆ()ˆ()( yyyyyy
2)ˆ( yyU 回归平方和
2)ˆ( yyQ
2)ˆ( yyQ 误差平方和
总的自由度: n-1 (总例数减 1 )
回归自由度: 1 (自变量个数)
误差自由度: n-2 (总的自由度减去回归自由度)
误差均方回归均方 /F
)2/(1/ nQ
UF
df1=1, df2=n-2 查方差分析用的 F 界值表,得 P值
例 6.2 研究正常男性年龄与运动后最大心率的关系,求直线回归方程。
xy 2496.32684.302ˆ
01.0,12,4078.5 Pdftb
1,5954.2404 1 dfU
12,4046.987 2 dfQ
01.0,2232.29 PF
直线回归相关分析的注意事项: 1. 相关分析只是以相关系数来描述两个变量间线性相关的程度和方向,并不阐明事物间存在联系的本质,也不是两事物间存在联系的证据。要阐明两事物间的本质联系,必须凭专业知识从理论上加以论证。因此,把两个毫无关系的事物放在一起作相关分析是毫无意义的。同样,作回归分析也要有实际意义。
直线回归相关分析的注意事项:
2. 在进行直线回归前应绘制散点图,有直线趋势时,才适宜作直线回归分析。散点图还能提示资料有无异常点。
3. 直线回归方程的适用范围一般以自变量的取值范围为限。
直线回归相关分析的注意事项: 4. 对同一组资料作回归和相关分析,其相关系数和回归系数的显著性检验结果完全相同。由于相关系数的显著性检验结果可直接查表,比较方便;而回归系数的显著性检验计算复杂,故在实际应用中常用相关系数的显著性检验结果代替回归系数的显著性检验。
直线回归相关分析的注意事项:5. 在资料要求上:
相关分析要求两个变量服从双变量正态分布。
回归分析要求因变量服从正态分布,自变量可以是精确测量和严格控制的变量。如两个变量服从双变量正态分布,则可以作两个回归方程,用X推算 Y ,或用 Y推算 X 。
第五节 过定点的直线回归
医学研究中在拟合直线时 , 除了要求与观察点尽量接近外 ,还常常要求必须经过某定点 (m,n)。例如在光电比色、荧光分析、火焰光度测定以及同位素测定等实验方法绘制标准直线时就常有这样的要求。
此定点也可以是 (m,0),(0,n) 或 (0,0)等 , 尤以 (0,0)为最常见。
计算公式和实例见第 116 页。
第六节 直线相关与回归的 SAS程序
SAS的 CORR过程可用于求变量之间的线性相关系数及偏相关系数。;
SAS的 REG过程可用于各种线性回归分析,包括多元回归(见第七章),逐步回归和最优子集回归(见第八章)等。
第七章 多元回归及相关第一节 多元线性回归的基本概念
事物间的相互联系往往是多方面的,在很多情况下对应变量 y 发生影响的自变量往往不止一个 。多元线性回归的目的就是用一个多元线性回归方程表示多个自变量和 1 个应变量间的关系。
mmii xbxbxbxbby 22110ˆ
0b :截距 ib :标准偏回归系数
标准偏回归系数表示其他自变量固定的情况下,xi 改变一个单位, y 平均改变 bi 个单位。
多元线性回归的应用条件:1. 独立性:各观察对象间相互独立。
2. 线性:自变量与应变量间的关系为线性。
3. 正态性:自变量取不同值时,应变量的分布为
正态。
4. 方差齐性:自变量取不同值时,应变量的总体
方差相等。
当不符合条件时,可对自变量进行变换。
如: 23322110 )lg(ˆ xbxbxbby
第二节 多元回归的计算
1. 计算截距和各偏回归系数。
2. 多元回归方程的显著性检验:
( 1 )整个方程的显著性检验:用方差分析。0: 210 mH 0:1 不等于至少有一个 iH
( 2 ) 对各偏回归系数的显著性检验:
F 检验:去掉 xj 后回归平方和的减少是否显著。
t 检验:回归系数除以它的标准误。
第三节 标准偏回归系数
要比较各个自变量对于应变量的作用大小,不能用偏回归系数,因为各偏回归系数的单位不同。必须把偏回归系数标准化,化成没有单位的标准偏回归系数,公式为 :
22' )(/)( yyxxbb iiii
yyiii llb /
消除不同单位的影响后,标准偏回归系数的绝对值越大,该自变量对于应变量的作用越大,但该差别是否有统计意义,也必须经过检验。
第四节 偏相关系数 相关系数 r 应称为简单相关系数,因为它只考虑了 x1 和
x2之间的相互影响 ,而未注意到其他变量对 x1 和 x2 可能有的影响。
事实上 ,客观事物间的关系是错综复杂的,变量之间的相互影响也往往是多种多样的。例如 , 当存在 x1 ,x2 ,x3 三个变量时 , 如果我们不考虑 x3 ,而只对 x1 ,x2 计算其相关系数 r ,则这 r 的大小往往不反映客观真实情况;如 r很大,可能意味着x1 ,x2之间的关系很密切,但也可能实际上 x1 ,x2之间并无什么关系,而 x3却对 x1 ,x2 能同时发挥很大的影响,我们所看到的较大 r 值不过是 x3 对 x1 的作用和 x3 对 x2 的作用的客观表现而已。反之, x1 ,x2之间算得的一个小 r 值 , 也不一定就意味着 x
1 ,x2之间的关系确实薄弱,也有可能 x1 ,x2之间虽有关联,但此关联性却被 x3 对它们的作用所抵消 , 以致被掩盖了。
因此在较单纯的情况下 , 如果 x1 ,x2 与周围其他变量没什么关系的话,则用简单相关系数来表示 x1 ,x2之间的相关性是可行的;如果存在着对 x1 ,x2 关系密切的其他变量,则 r 就不能确切地表示 x1 ,x2之间的真实关系 ,这就需要用到偏相关系数。
所谓偏相关系数指的是当把 x1 ,x2 以外的其他变量对它们的影响都扣除掉 (或平衡掉 ) 以后 , x1 ,x2之间的相关系数。
3,12r 表示把 x3 的作用扣除掉以后 x1 和 x2 的偏相关系数
34,12r 表示把 x3 和 x4 的作用扣除掉以后 x1 和 x2 的偏相关系数
偏相关系数可从简单相关系数计算得到,也要作显著性检验。
第五节 多元相关系数及决定系数
在多元回归中可算得一个多元相关系数,用 R 表示,它是 y 与 之间的简单相关系数,也可理解为 y 与自变量组合之间的相关系数。
R2称为多元回归方程的决定系数 , 即 y 的变异中可由方程中的自变量组合所决定的部分。
R2 值介于 0~ 1之间, R2越接近 1, 说明回归方程的效果越好。 R2越接近 0, 说明回归方程的效果越差,即 y的变异中只有很少一部分能由方程中的自变量组合所决定,即使该方程有显著意义,也不能认为该方程的效果可以令人满意 , 启示我们还应进一步寻找其他对 y 可能有显著作用的变量或变量组合。 R2 也可用于检验多元回归方程的显著性 。
y
22 )(/ yyUR
第六节 多元回归在医学中的应用
1. 一。根据较易测得的自变量推算不易测得的应变量
如:用身高 , 体重推算体表面积 。
二。确定各自变量 xi 取不同值时, y 的正常值范围
如:建立一个由身高,体重推算心象面积的多元回归方程,利用此方程就可分别求出身高, 体重取不同值的组合时,心象面积的正常值范围。
三。预测预报
如:建立心肌梗塞预报方程或脑卒中预报方程。
四。回顾推断
如:推断死亡时间。
第七节 多元回归及相关的 SAS程序
求偏相关系数用 CORR 过程。
求多元回归及相关用 REG 过程。
第八章 逐步回归及最优子集回归
第一节 逐步回归分析 一.逐步回归分析的基本概念
逐步回归分析的目的是建立“最优”回归方程。
“最优”回归方程是指包含所有对 y有显著作用的自变量,而不包含对 y作用不显著的自变量的方程。
二 . 逐步回归分析的计算方法
在供选的自变量 Xi 中,按其对 y 的作用大小,由大到小地把自变量逐个引入方程, 每引入一个自变量就对它作显著性检验,显著时才引入,而当新的自变量进入方程后 , 对方程中原有的自变量也要作检验,并把作用最小且退化为不显著的自变量逐个剔出方程。因此,逐步回归的每一步(引入一个变量或剔除一个变量都称为一步)前后都要作显著性检验,以保证每次引入新变量前方程中只包含作用显著的自变量。这样一步步进行下去 , 直至方程中所含自变量都显著而又没有新的作用显著的自变量可引入方程为止。
逐步回归分析方法示意:
y x1、 x2 、 x3 、…… xm
xj
Xj 是否显著 结束引入方程方程内自变量中选择对 y 作用最小的 xi
剔除
方程外:
作用最大的自变量:
第三节 最优子集回归
回归方程优劣的评价:( P 为选入方程的自变量数)
1. 剩余标准差最小:
2. 变异系数最小:
3. 复相关系数最大:
4. 校正 R2 最大:
5. cp 统计量最小
)1/()ˆ( 212. Pnyys Py
%100/12. yscv Py
yylUR /2
)1/()1( 222 PNRPRR校正
))1(2(/ 2 PNsQcp
第三节 最优子集回归
把一切可能自变量组合的方程都求出来,然后选出一个符合最优标准的回归方程。这个方法称为最优子集回归。
y ~x1 y ~x2 y ~x3 y~ x1 、 x2 y~ x1 、 x3
y~ x2 、 x3 y~ x1 、 x2 、 x3
最优回归准则:
( 1 ) R2 最大:只能用于相同个数自变量方程间的比较。
( 2 )校正 R2 最大:能用于不同个数自变量方程间的比较。
( 3 )最小的 cp 统计量:能用于不同个数自变量方程间的比较。
第三节 逐步回归和最优子集回归
的应用实例及 SAS程序
用 REG 过程,
逐步回归 : MODEL 语句后面的选择项
SELECTION=STEPWISE
最优子集回归 : MODEL 语句后面的选择项
SELECTION=RSQUARE
SELECTION=ADJRSQ
SELECTION=CP
top related