4.1 单因素试验的方差分析 - ustchome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 ·...

63
第四章 方差分析与回归分析 中国科大 13 November 2015 2§4.1 单因素试验的方差分析 4.1.1 问题的提出 实际工作中我们经常碰到多个正态总体 均值的比较问题,处理这类问题通常采 用所谓的方差分析方法。

Upload: others

Post on 06-Jul-2020

35 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第2页

§4.1 单因素试验的方差分析

4.1.1 问题的提出

实际工作中我们经常碰到多个正态总体

均值的比较问题,处理这类问题通常采

用所谓的方差分析方法。

Page 2: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第3页

例4.1.1 在饲料养鸡增肥的研究中,某研究

所提出三种饲料配方:A1是以鱼粉为主的

饲料,A2是以槐树粉为主的饲料,A3是以

苜蓿粉为主的饲料。为比较三种饲料的效

果,特选 24 只相似的雏鸡随机均分为三

组,每组各喂一种饲料,60天后观察它们

的重量。试验结果如下表所示:

Page 3: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第4页

表4.1.1 鸡饲料试验数据

饲料A 鸡 重(克)

A1 1073 1009 1060 1001 1002 1012 1009 1028

A2 1107 1092 990 1109 1090 1074 1122 1001

A3 1093 1029 1080 1021 1022 1032 1029 1048

Page 4: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第5页

本例中,我们要比较的是三种饲料对鸡的增肥

作用是否相同。为此,把饲料称为因素,记为A,

三种不同的配方称为因子A的三个水平,记为A1,

A2, A3,使用配方Ai下第 j 只鸡60天后的重量用

Xij表示,i=1, 2, 3, j=1, 2,, 10。我们的目的是

比较三种饲料配方下鸡的平均重量是否相等,

为此,需要做一些基本假定,把所研究的问题

归结为一个统计问题,然后用方差分析的方法

进行解决。

Page 5: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第6页

4.1.2 单因素方差分析的统计模型

在例4.1.1中我们只考察了一个因素,称其

为单因素试验。

通常,在单因素试验中,记因素为 A, 设其

有r个水平,记为A1, A2,…, Ar,在每一水平

下考察的指标可以看成一个总体 ,现有 r

个水平,故有 r 个总体, 假定:

Page 6: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第7页

1) 每一总体均为正态总体,记为 N(i , i 2),

i=1, 2,…, r ;

2) 各总体的方差相同: 1 2= 2

2=…= r2 =

2 ;

3) 从每一总体中抽取的样本是相互独立的,

即所有的试验结果 Xij 都相互独立。

Page 7: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第8页

我们要比较各水平下的均值是否相同,

即要对如下的一个假设进行检验:

H0 :1 =2 =…=r (4.1.1)

备择假设为

H1 :1, 2, …, r 不全相等

在不会引起误解的情况下, H1 通常可省略不写。

如果H0成立,因素A的r个水平均值相同,称因素A的r

个水平间没有显著差异,简称因素A不显著;反之,当

H0不成立时,因素A的r个水平均值不全相同,这时称

因素A的不同水平间有显著差异,简称因素A显著。

Page 8: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第9页

为对假设(4.1.1)进行检验,需要从每一水

平下的总体抽取样本,设从第i个水平下的总

体获得m个试验结果,记 Xij 表示第i个总体的

第j次重复试验结果。共得如下n=rm个试验

结果:

Xij, i=1, 2,…, r , j=1, 2, …, m,

其中r为水平数,m为重复数,i为水平编号,

j 为重复编号。

Page 9: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第10页

在水平Ai下的试验结果Xij与该水平下的指标均值

i 一般总是有差距的,记 ij = Xiji,

ij 称为随机误差。于是有

Xij = i +ij (4.1.2)

(4.1.2)式称为试验结果 Xij 的数据结构式。

Page 10: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第11页

单因素方差分析的统计模型:

(4.1.3)

总均值与效应:

称 为总平均.

称第 i 水平下的均值 i 与总均值 的差:

ai=i - 为 Ai 的效应。

2

, 1,2,..., , 1,2,...,

(0, )

ij i ij

ij

X i r j m

N

诸 相互独立,且都服从

1 1

1

1 1( ... )

r

r r i i

i

n n nn n

Page 11: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第12页

模型(4.1.3)可以改写为

(4.1.4)

假设(4.1.1)可改写为

H0 :a1 =a2 =…=ar =0 (4.1.5)

1

2

, 1,2,..., , 1,2,...,

0

N(0, )

ij i ij

r

i i

i

ij

X a i r j m

n a

相互独立,且都服从

Page 12: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第13页

4.1.3 平方和分解

一、试验数据

通常在单因素方差分析中可将试验数据列成

如下页表格形式。

表4.1.2中的最后二列的和与平均的含义如下:

.

1

1

1,2, ,m

iii ij

j

r

i

i

TT X X i r

m

T TT T X

r m n

n r m

总试验次数

Page 13: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第14页

表4.1.2 单因素方差分析试验数据

因素水平 试 验 数 据 和 平均

A1 X11 X12 … X1m T1

A2 X21 X22 … X2m T2

┆ ┆ ┆ ┆

Ar Xr1 Xr2 … Xrm Tr

T

1X

2X

X

rX

Page 14: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第15页

数据间是有差异的。数据Xij与总平均 间

的偏差可用Xij 表示,它可分解为二个

偏差之和:

(4.1.6)

二、组内偏差与组间偏差

. .( ) ( )i iij ijX X X X X X

. .

1 1 1 1

1 1 1,

m r r m

i ij i ij

j i i jm r n

X

X

Page 15: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第16页

由于

(4.1.7)

所以Xij - 仅反映组内数据与组内平均的随机

误差,称为组内偏差;而

(4.1.8)

除了反映随机误差外,还反映了第i个水

平的效应,称为组间偏差。

. ( ) ( )iij i ij i i ij iX X

ijX

. . .( ) ( )i i i i iX X a

.iX X

Page 16: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第17页

在统计学中,把k个数据X1 , X2 , …, Xk分别对其

均值 =(X1+ …+ Xk )/k 的偏差平方和:

称为k个数据的偏差平方和,它常用来度量若

干个数据分散的程度。

三、偏差平方和及其自由度

X

2 2 2

1

1

( ) ( ) ( )k

k i

i

Q X X X X X X

Page 17: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第18页

在构成偏差平方和Q的k个偏差X1 , …, Xk

间有一个恒等式 ,这说明在Q中独

立的偏差只有k1个。

在统计学中把平方和中独立偏差个数称为该平

方和的自由度,常记为f,如Q的自由度为

fQ=k1。自由度是偏差平方和的一个重要参数。

X X

1

( ) 0k

i

i

X X

Page 18: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第19页

各Xij间总的差异大小可用总偏差平方和

表示,其自由度为fT=n1;

四、总平方和分解公式

仅由随机误差引起的数据间的差异可以用

组内偏差平方和 表示,

也称为误差偏差平方和,其自由度为 fe=nr ;

2

1 1

( )r m

T ij

i j

S X X

2

.

1 1

( )r m

ie ij

i j

S X X

Page 19: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第20页

由于组间差异除了随机误差外,还反映了

效应间的差异,故由效应不同引起的数据

差异可用组间偏差平方和

表示,也称为因子A的偏差平方和,其自

由度为 fA=r1;

2.

1

( )r

iA

i

S m X X

Page 20: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第21页

定理4.1.1 在上述符号下,总平方和ST可以

分解为因素平方和SA与误差平方和Se之和,

其自由度也有相应分解公式,具体为:

ST =SA +Se , fT =fA +fe (4.1.9)

(4.1.9)式通常称为总平方和分解式。

Page 21: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第22页

偏差平方和Q的大小与自由度有关,为了便于

在偏差平方和间进行比较,统计上引入了均方

和的概念,它定义为MS=Q/fQ ,其意为平均每

个自由度上有多少平方和,它比较好地度量了

一组数据的离散程度。

如今要对因子平方和 SA 与误差平方和 Se 之间进

行比较,用其均方和 MSA= SA /fA , MSe= Se /fe

进行比较更为合理,故可用 作

为检验H0的统计量。

4.1.4 检验方法

/

/

A A A

e e e

MS S fF

MS S f

Page 22: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第23页

定理4.1.2 在单因素方差分析模型及前述符号

下,有:

(1) Se / 2 ~

2(nr) ,从而E(Se ) =(nr) 2

,进一步,若H0成

立,则有SA/ 2 ~

2(r1)

(2) SA与Se独立。

2 2

1

( ) ( 1)r

A i

i

E S r m a

Page 23: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第24页

由定理4.1.2,若H0成立,则检验统计量F服从自由度

为fA和fe的F分布,因此拒绝域为W={FF (fA ,fe)},通

常将上述计算过程列成一张表格,称为方差分析表。

表4.1.3 单因素方差分析表

来源 平方和 自由度 均方和 F比

因素 SA fA=r1 MSA= SA/fA F= MSA/ MSe

误差 Se fe=nr MSe= Se/fe

总和 ST fT=n1

Page 24: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第25页

对给定的,可作如下判断:

若F F (fA ,fe) ,则说明因子A不显著。

该检验的p值也可利用统计软件求出,若

以Y记服从F(fA ,fe)的随机变量,则检验的

p 值为 p=P(YF)。

如果 F >F (fA ,fe),则认为因子A显著;

Page 25: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第26页

常用的各偏差平方和的计算公式如下:

(4.1.10)

一般可将计算过程列表进行。

22

1 1

22

1

1

r m

T ij

i j

r

A i

i

e T A

TS X

n

TS T

m n

S S S

Page 26: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第27页

例4.1.2 采用例4.1.1的数据,将原始数据减去1000,

列表给出计算过程:

表4.1.4 例4.1.2的计算表

水平

数据(原始数据-1000) Ti Ti

2

A1 73 9 60 1 2 12 9 28 194 37636 10024

A2 107 92 -10 109 90 74 122 1 585 342225 60355

A3 93 29 80 21 22 32 29 48 354 125316 20984

1133 505177 91363

2

1

m

ij

j

X

Page 27: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第28页

利用(4.1.10),可算得各偏差平方和为:

把上述诸平方和及其自由度填入方差分析表

2

2

113391363 37876.0417, 24 1 23

24

505177 11339660.0833, 3 1 2

8 24

37876.0417 9660.0833 28215.9584, 3(8 1) 21

T T

A A

e T A e

S f

S f

S S S f

Page 28: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第29页

表4.1.5 例4.1.2的方差分析表

来源 平方和 自由度 均方和 F比

因素 9660.0833 2 4830.0417 3.5948

误差 28215.9584 21 1343.6171

总和 37876.0417 23

若取=0.05,则F0.05 (2 ,21)=3.47 ,由于

F=3.5948>3.47,故认为因素A(饲料)是显著的,

即三种饲料对鸡的增肥作用有明显的差别。

Page 29: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第30页

4.1.5 参数估计

在检验结果为显著时,我们可进一步求出

总均值 、各主效应ai和误差方差 2的估计。

Page 30: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第31页

一、点估计

由模型(4.1.4)知诸Xij相互独立,且Xij ~N(+ ai , 2) ,因此

可使用极大似然方法求出一般平均 、各主效应ai和误差

差 2的估计:

由极大似然估计的不变性,各水平均值i的极大似然估计

为 ,由于 不是 2的无偏估计,可修偏: .ˆ ii X

2ˆM 2ˆ

eMS

.

2 2

1 1

,

, 1, ,

1( )

ii

r me

M ij

i j

X

a X X i r

SX X

n n

Page 31: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第32页

由于 ,可给出Ai的水平均值i

的1- 的置信区间为:

其中 。

.( )~ ( )

/

i ie

e e

m Xt f

S f

二、置信区间

. ./ 2 /2( ) / , ( ) /i ie eX t f m X t f m

2ˆeMS

Page 32: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第33页

例4.1.3 继续例4.1.2,此处我们给出诸水平均

值的估计。因素A的三个水平均值的估计分

别为:

从点估计来看,水平2(以槐树粉为主的饲

料)是最优的。

1

2

3

1941000 1024.25,

8

5851000 1073.125,

8

3541000 1044.25,

8

Page 33: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第34页

误差方差的无偏估计为

可以给出诸水平均值的置信区间。此

处, ,若取=0.05 ,则:

t /2( fe )=t0.025( 21 )=2.0796,

,于是三个水平均值的

0.95置信区间分别为:

2ˆ 1343.6171eMS

ˆ 1343.6171 36.6554

0.025ˆ (21) / 8 26.9509t

1

2

3

:1024.25 26.9509 = [997.2891, 1051.2109],

:1073.125 26.9509 = [1046.1741, 1100.0759],

:1044.25 26.9509 = [1017.2891, 1071.2109].

Page 34: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第35页

在单因素试验的数据分析中可得到如下三个

结果:

因素是否显著;

试验的误差方差 2的估计;

诸水平均值i的点估计与区间估计。

在因素A显著时,通常只需对较优的水平均

值作参数估计,在因子A不显著场合,参数

估计无需进行。

Page 35: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第36页

§4.2 一元线性回归

4.2.1 变量间的两类关系

十九世纪,英国生物学家兼统计学家高尔顿研究

发现:

其中x表示父亲身高, y 表示成年儿子的身高

(单位:英寸,1英寸=2.54厘米)。这表明子代

的平均高度有向中心回归的意思,使得一段时

间内人的身高相对稳定。之后回归分析的思想

渗透到了数理统计的其它分支中。

ˆ 33.73 0.516y x

Page 36: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第37页

回归分析便是研究变量间相关关系的一门学科。

它通过对客观事物中变量的大量观察或试验获得

的数据,去寻找隐藏在数据背后的相关关系,给

出它们的表达形式——回归函数的估计。

变量间的相关关系不能用完全确切的函数形式表

示,但在平均意义下有一定的定量关系表达式,寻

找这种定量关系表达式就是回归分析的主要任务。

回归分析处理的是变量与变量间的关系。变量

间常见的关系有两类:确定性关系与相关关系。

Page 37: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第38页

4.2.2 一元线性回归模型 设y与x间有相关关系,称x为自变量(预报变量),

y为因变量(响应变量),在知道x取值后,y有一个

分布p(yx),我们关心的是y的均值E(Yx):

(4.2.1)

这便是y关于x的理论回归函数——条件期望,也

就是我们要寻找的相关关系的表达式。

通常,相关关系可用下式表示

y =f (x)+

其中是随机误差,一般假设 ~N(0, 2)。

( ) ( | ) ( | )f x E Y x yp y x dy

Page 38: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第39页

例4.2.1 合金的强度y (×107Pa) 与合金中碳的

含量x (%) 有关。为研究两个变量间的关系。

首先是收集数据,我们把收集到的数据记为

(xi,yi),i=1,2,,n。本例中,我们收集到12组数

据,列于表4.2.1中

进行回归分析首先是回归函数形式的选择。

当只有一个自变量时,通常可采用画散点图

的方法进行选择。

Page 39: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第40页

表4.2.1 合金钢强度y与碳含量x的数据 序号 x(%) y (×10

7Pa) 序号 x(%) y (×10

7Pa)

1 0.10 42.0 7 0.16 44.0

2 0.11 43.0 8 0.17 53.0

3 0.12 45.0 9 0.18 50.0

4 0.13 45.0 10 0.20 55.0

5 0.14 45.0 11 0.21 55.0

6 0.15 47.5 12 0.23 60.0

Page 40: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第41页

为找出两个量间

的回归函数,可

以画一张图:把

每一对数(xi,yi)看

成直角坐标系中

的一个点,在图

上画出n个点,

称这张图为散点

图,见左图 0.10 0.15 0.20

40

50

60

碳 含 量

合金

钢强

图 8.4.1 合 金 钢 强 度 及 碳 含 量 的 散 点 图

Page 41: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第42页

从散点图我们发现12个点基本在一条直线附近,这说

明两个变量之间存在线性相关关系,可以表示为:

y =0+ 1x+ (4.2.2)

这便是y关于x的一元线性回归的数据结构式。通常假

E() =0, Var() = 2 (4.2.3)

在对未知参数作区间估计或假设检验时,还需要假定

误差服从正态分布,即

y ~N(0+ 1x, 2 ) (4.2.4)

显然,假定(4.2.4) 比 (4.2.3) 要强。

Page 42: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第43页

由于 0, 1均未知,我们需要从收集到的数

据(xi,yi),i=1,2,…,n,出发进行估计。在收

集数据时,我们一般要求观察独立地进行,

即假定y1, y2,, yn,相互独立。综合上述诸项

假定,我们可以给出最简单、常用的一元线

性回归的数学模型:

(4.2.5) 0 1

2

1,2,

(0, )

i i i

i

y x i n

N

各 独立同分布,其分布为

Page 43: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第44页

由数据(xi,yi),i=1,2,…,n,可以获得0, 1的估

计 ,称

(4.2.6)

为y关于x的经验回归函数,简称为回归方程,

其图形称为回归直线。给定x=x0后,

称 为回归值(在不同场合也称其

为拟合值、预测值)。

0 1ˆ ˆ,

0 1ˆ ˆy x

0 0 1 0ˆ ˆy x

Page 44: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第45页

4.2.3 回归系数的最小二乘估计

一般采用最小二乘方法估计模型(4.2.5)中的0,

1 :令:

应该满足

称这样得到的 称为0, 1的最小二乘估计,

记为LSE。

0 1ˆ ˆ,

0 1ˆ ˆ,

2

0 1 0 1

1

( , ) ( )n

i i

i

Q y x

10 1 0 1

,

ˆ ˆ( , ) min ( , )Q Q

Page 45: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第46页

最小二乘估计可以通过求偏导数并命其为0而

得到:

(4.2.7)

这组方程称为正规方程组,经过整理,可得

(4.2.8)

0 1

10

0 1

11

2 ( ) 0

2 ( ) 0

n

i i

i

n

i i i

i

Qy x

Qy x x

0 1

2

0 1

ˆ ˆ

ˆ ˆi i i

n nx ny

nx x x y

Page 46: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第47页

解(4.2.8)可得

(4.2.9)

这就是参数的最小二乘估计,其中

1

0 1

ˆ /

ˆ ˆ

xy xxS S

y x

22 2 2 2

22 2 2 2

1 1,

1( )( )

1( )

1( )

i i

xy i i i i i i i i

xx i i i i

yy i i i i

x x y yn n

S x x y y x y nx y x y x yn

S x x x nx x xn

S y y y ny y yn

Page 47: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第48页

表4.2.2 例4.2.2的计算表 xi=1.90 n=12 yi=590.5

xi

2=0.3194 xi yi =95.9250 yi

2=29392.75

Sxx=0.0186 Sxy=2.4292 Syy=335.2292

由此给出回归方程为: 28.5340 130.6022y x

例4.2.2 使用例4.2.1种合金钢强度和碳含量

数据,我们可求得回归方程,见下表.

0.1583x 49.2083y

2 0.3008nx 93.4958n x y 2 29057.5208ny

1 / 130.6022xy xxS S

0 1 28.5340y x

Page 48: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第49页

定理4.2.1 在模型(4.2.5)下,有

(1)

(2)

(3)对给定的x0,

2 22

0 0 1 1

1ˆ ˆ~ , ~ ,xx xx

xN N

n S S

2

0 1ˆ ˆCov

xx

x

S ,

220

0 0 1 0 0 1 0

( )1ˆ ˆˆ ~xx

x xy x N x

n S

关于最小二乘估计的一些性质罗列在如下定

理之中:

Page 49: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第50页

定理4.2.1 说明

分别是0, 1的无偏估计; 0 1ˆ ˆ,

是E(y0)=0+ 1 x0的无偏估计; 0y

除 外, 与 是相关的; 0x 10

要提高 的估计精度(即降低它们的方

差)就要求n大,Sxx大(即要求x1, x2,, xn

较分散)。

0 1ˆ ˆ,

Page 50: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第51页

4.2.4 回归方程的显著性检验 在使用回归方程作进一步地分析前,首先应对回归方

程是否有意义进行判断。

如果1=0,那么不管x如何变化,E(y)不随x的变化作

线性变化,那么这时求得的一元线性回归方程就没有

意义,称回归方程不显著。如果10,E(y)随x的变化

作线性变化,称回归方程是显著的。

综上,对回归方程是否有意义作判断就是要作如下的

显著性检验:H0:1=0 vs H1: 10

拒绝H0表示回归方程是显著的。

Page 51: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第52页

一、t 检验

对H0 : 1 =0的检验也可基于t分布进行。

由于 ,

因此在H0为真时,有 ,其中

,它可用来检验假设H0。对给定

的显著性水平 ,拒绝域为 .

由于 ,称 为 的标准误

差,即 的标准差的估计。

22

1 1 12ˆ ˆ~ , , ~ ( 2),e

xx

SN n

S

且与 相互独立

~ ( 2)ˆ / xx

t t nS

ˆ / ( 2)eS n

/ 2{ ( 2)}W t t n

1ˆ / xxS

1ˆˆ ˆ / xxS

1

1

Page 52: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第53页

注意到t2=F,因此,显著性检验也可以采用F

检验法。

以例4.2.2中数据为例,可以计算得到

若取 =0.01,则由于13.2872>3.1698,因此,

在显著性水平0.01下回归方程是显著的。

130.602213.2872

1.7970 / 0.0186t

Page 53: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第54页

在一元线性回归场合,二种检验方法等价;

即在相同的显著性水平下,要么都拒绝原假设,要么都接受原假设,不会产生矛盾。

Page 54: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第55页

4.2.5 估计与预测

当回归方程经过检验是显著的后,可用来做估计和预测。

这是二个不同的问题:

(1)当x=x0时,寻求均值E(y0)=0+ 1 x0的点估计与区间

估计(注意这里E(y0)是常量)是估计问题;

(2)当x=x0时,y0的观察值在什么范围内?由于y0是随机

变量,为此只能求一个区间,使y0落在这一区间的概

率为1- ,即要求,使

称区间 为y0的概率为1- 的预测区间,

这是预测问题。

0 0ˆ( ) 1P y y

0 0,y y

Page 55: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第56页

一、 E(y0)的估计

在x=x0时,其对应的因变量y0是一个随机变量,

有一个分布,我们经常需要对该分布的均值

给出估计。由于E(y0)=0+ 1 x0,一个直观的

估计应为

我们习惯上将上述估计记为 (注意这里

表示的是E(y0)的估计,而不表示y0的估计,

因为y0是随机变量,它是没有估计的)。由

于 分别是0, 1的无偏估计,因此,

也是E(y0)的无偏估计。

0y 0y

0y0 1ˆ ˆ,

0 0 1 0( )E y x

Page 56: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第57页

为得到E(y0)的区间估计,我们需要知道 的

分布。由定理4.2.1,

又由定理4.2.3知, Se / 2 ~ 2(n-2),且与

相互独立,故 0 1 0

ˆˆ ( )y y x x

220

0 0 1 0 0 1 0

( )1ˆ ˆˆ ~xx

x xy x N x

n S

2

00 0

0 0

2

02

( )1ˆ( ) /

ˆ~ ( 2)

( )1/( 2) ˆ

xx

e

xx

x xy Ey

n S y Eyt n

S x xn

n S

0y

Page 57: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第58页

于是E(y0)的1 的置信区间(CI)是

(4.2.13)

其中

(4.2.14)

2

00 / 2

( )1( 2)

xx

x xt n

n S

0 0 0 0[ , ]y y

Page 58: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第59页

二、 y0的预测区间

实用中往往更关心x=x0时对应的因变量y0的取

值范围。 y0的最可能取值为 ,于是,我们

可以使用以 为中心的一个区间

作为y0的取值范围。经推导, 的表达式为:

(4.2.15)

上述预测区间(PI)与E(y0)的置信区间的差

别就在于根号里多个1。

0y

0y 0 0( , )y y

2

00 / 2

( )1ˆ( ) ( 2) 1

xx

x xx t n

n S

Page 59: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第60页

预测区间的长度2与样本量n、x的偏差平方和

Sxx、 x0 到 的距离 有关。

当 时,预测精度可能变得很差,在这

种情况下的预测称作外推。另外,若x1, x2,, xn

较为集中时,那么Sxx就较小,也会导致预测精

度的降低。因此,在收集数据时要使x1, x2,, xn

尽量分散,这对提高精度有利。

当n较大时(如n >30), t分布可以用正态分布

近似,进一步,若x0与 相差不大时, 可以近

似取为 。

0| |x xx

0 (1) ( )[ , ]nx x x

x

/ 2u

Page 60: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第61页

例4.2.4 在例4.2.2中,如果x0=0.16,则得预

测值为

若取 =0.05,则t0.025(10)=2.2281,

又 ,应用(4.2.14),

故x0=0.16对应因变量y0的均值E(y0)的0.95置信

区间为(44.4328-1.0480, 44.4328+1.0480)

=(48.3488, 50.5168)

0 28.5364 130.6022 0.16 49.4328y

17.9703 / (12 2) 1.3405

2

0

1 (0.16 0.19)1.3405 2.2281 1.0840

12 0.0186

Page 61: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第62页

应用(4.2.15),

从而y0的概率为0.95的预测区间为:

E(y0)的0.95置信区间比y0的概率为0.95的预测区

间窄很多,这是因为随机变量的均值相对于随

机变量本身而言要更容易估计出来。

21 (0.16 0.19)1.3405 2.2281 1 3.1774

12 0.0186

(49.4328 3.1774,49.4328 3.1774) (46.2554,52.6102)

Page 62: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第63页

§4.3 小结

基本概念:

单因素试验方差分析的数学模型、一元线性回归的

数学模型、回归直线;

计算公式:

单因素试验方差分析与计算;

一元线性回归的相关计算与应用;

Page 63: 4.1 单因素试验的方差分析 - USTChome.ustc.edu.cn/~dengh/ms/ch4.pdf · 2015-11-13 · 第四章 方差分析与回归分析 13 November 2015 中国科大 第3页 例4.1.1

第四章 方差分析与回归分析

中国科大 13 November 2015

第64页

2, 4;

作 业