2. 大样本 的总体均值置信区间

82
) , ( 2 / 2 / n z X n z X 1. 2. 大大大大大 大大大大大大 ) , ( 2 / 2 / n s z X n s z X 大大大体,大大 2 , 大大大 , 大大 大大大大大大大 ) , ( 2 / 2 / n s t X n s t X 3. 大大大大大大 : 大大大, 2 大大 4. 大大大大大大大 ( 大大大 ) ) / ˆ ˆ ˆ , / ˆ ˆ ˆ ( 2 / 2 / n q p z p n q p z p

Upload: yuri-dean

Post on 03-Jan-2016

428 views

Category:

Documents


6 download

DESCRIPTION

1. 正态总体, 未知  2 , 小样本 , 求总体均值的置信区间. 2. 大样本 的总体均值置信区间. 3. 总体均值置信区间 : 正态总体 ,  2 已知. 4. 总体比率的置信区间 ( 大样本 ). 例: 一家食品生产企业生产袋装食品。按规定每袋重量为 100g 。已知正常生产条件下,产品重量服从正态分布,总体标准差为 10 g 。现从某天生产的食品中随机抽取了 25 袋 , 计算出样本均值为 105.36 g 。试 估计该批产品平均重量 的置信区间,置信水平为 95% 。. 置信区间: 105.36  3.92. - PowerPoint PPT Presentation

TRANSCRIPT

),( 2/2/n

zXn

zX

1.

2.  大样本的总体均值置信区间

),( 2/2/ ns

zXn

szX

正态总体,未知 2 , 小样本 , 求总体均值的置信区间

),( 2/2/ n

stX

n

stX

3. 总体均值置信区间 : 正态总体 , 2 已知

4. 总体比率的置信区间 ( 大样本 )

)/ˆˆˆ,/ˆˆˆ( 2/2/ nqpzpnqpzp

例: 一家食品生产企业生产袋装食品。按规定每袋重量为100g 。已知正常生产条件下,产品重量服从正态分布,总体标准差为 10 g 。现从某天生产的食品中随机抽取了 25 袋,

计算出样本均值为 105.36 g 。试估计该批产品平均重量的置信区间,置信水平为 95% 。

置信区间: 105.36 3.92

能否说:该批产品重量的取值范围是( 101.44 , 109.28 )?注意:( 1 )我们估计的是该批产品平均重量( 2 )该批产品的平均重量是一个常量!( 3 )当样本容量增大时,置信区间会变窄

置信区间只是此次点估计的误差范围 !!!

报导方法报导方法 :: 这批产品平均重量的估计值为 105.36

此次估计的绝对误差是 3. 92

此次估计的相对误差是 3. 72%

用该方法估计的可靠程度是 95%

第四章 抽样调查方法

主要参考书:柯惠新,沈浩, 调查研究中的统计分析方法(第二版),中国传媒大学出版社, 2005 ;

( 第三部分 )

4.1 为什么要采用抽样调查方法4.1 为什么要采用抽样调查方法 普查的代价: 1. 费用昂贵 2. 时间过长 3. 观测值几乎是无穷个 4. 毁坏性实验 5. 精度 :

由一个训练有素的调查人员得到的样本统计结果,可能比没有受过训练的人进行普查得到的结果更准确 .

抽样主要考虑: 调查的效率和精确性 研究样本比研究总体的速度更快,花费更少; 可以把花费在不必要的数量过大的群体资料的经费用在监测数据收集

质量上.

4.2 如何确定调查方案4.2 如何确定调查方案

1 、调查目的 指出调查所要达到的具体目标。 调查研究的目的是进行调查的原因。( 1 )对特定人群的调查研究,可以描述、比较、预

测他们的认知、态度及行为。( 2 )可以对所发生的事实进行调查。例如:( 1 )某社会组织可以通过抽样调查,分析人们对某项政策的

看法,或者调查某项政策实施是否有效。(2)一批灯泡的废品率或平均寿命( 3 )北京市出租车司机的工作负荷情况和劳动收入情况。

2 、调查大纲(调查研究的具体内容)

只有在调查目的明确后,才能确定向谁调查、调查什么,以及采取什么方法。

案例 1 :对中国妇女参政的看法( 1 )第一次研讨会的主要议题是什么?(主持人应如何把握会场研讨)

( 2 )向谁发问卷?

( 3 )根据调查结果,要向上级领导说明什么问题?

注意:在进行调查方案设计之前,必须精确地陈述调查目的以及调查研究的内容(应该有详细的提纲)

案例 1 : 2007 年中国机电行业自主品牌产品出口情况抽样调查(商务部))

总目的: 对 2007 年全国机电行业自主品牌产品出口情况调查调查大纲:

统计报告期内,全国机电行业出口企业的自主品牌出口额占该行业总出口额的比例;

分析自主品牌出口额比例在金属制品、机械及设备、电器及电子产品、运输工具、仪器仪表等产品的分布情况;

分析机电行业自主品牌出口额比例在各地区分布情况; 了解我国机电行业企业在发展自主品牌方面的认识现状; 了解企业采用贴牌出口的主要原因; 了解我国机电行业企业在发展自主品牌出口方面多面临的主要困难,以

及对政府扶持品牌发展的意见与建议。

4.3 如何确定抽样框4.3 如何确定抽样框

1 、目标总体:所有要调查的个体的集合例如:一批灯泡   北京市全体出租车司机

案例 : 2007 年中国机电行业自主品牌产品出口情况抽样调查调查范围:

2007 年 1月 1日至 2007 年 12 月 31 日的全国机电行业出口企业。(产品类型包括金属制品、机械及设备、电器及电子产品、运输工具、仪器仪表。)

统计调查的报告期:        2007 年 1月 1日 — 2007 年 12 月 31 日

2 、样本:样本是目标总体的一部分 在总体中抽取一部分个体进行观测统计,再根据这部分个体的观测

信息推断总体的性质。

3 、样本容量 n :样本中的个体数目 大样本: n 30

小样本: n < 30

什么是一个好的样本: 什么是一个好的样本: 是总体的代表(缩影),非常像,但是小一些。样本中的重要特征应该与总体基本近似。

例如:调查机电行业出口企业的自主品牌出口额占该行业总出口额的比例;

目标:样本企业中自主品牌出口比例 = 总体中自主品牌出口比例

4 、抽样框:实施抽样的总体名单 进行抽样的第一步是获得一个符合条件的个体组成的总体名单,样本将在这个总体名单中抽取. 在实际操作时,我们总是从抽样框中抽取一部分个体进行观测统计。一个好的抽样框:

但是,在实际情况下,有时抽样框并不等于目标总体例如: ( 1 )如果采用 2002 年出口企业名录做关于 2003 年 TBT影响调查( 2 )国家杰出青年科学基金实施效果的评价(可否采用大众评估?)( 3 )哪些管理期刊在各个学科中是比较重要的?(让所有管理专家来评分?)

应包括所有的目标总体的成员

案例 : 《文学摘要》民意测验 1936 年美国总统选举 F.D. Roosevelt ( 罗斯福)任美国总统的第一任期届满 ( 民主党 ) A. Landon ( 兰登) Kansas 州州长 ( 共和党 ) 经济背景:国家正努力从大萧条中恢复,失业人数高达九百万人。 The literary Digest 《文学摘要》进行民意测验,将问卷邮寄给一千万人,

他们的名字和地址摘自电话簿或俱乐部会员名册。其中 240 万人寄回答案(回收率 24% )。

预测结果: Roosevelt 43%, Landon 57% 竞选结果: Roosevelt 62%, Landon 38% 主要原因:

选择偏倚——将一类人排除在样本框之外(当时四个家庭中,只有一家安装电话)

不回答偏倚——低收入和高收入的人倾向不回答

抽样框 目标总体

1936 年美国总统竞选( Gallup 的预测)样本容量 3000 人,在《摘要》公布其预测结果之前,仅以一个百分位数的误差预言了《摘要》的预测结果。

利用一个约 5 万人的样本,正确地预测了 Roosevelt 的胜利。 Roosevelt 的百分数 盖洛普预言《摘要》的预测结果 44

《摘要》预测的选举结果 43

盖洛普预测的选举结果 56

选举结果 62

方法:方法: 从《摘要》要用的名单中随机选取 3000 人,并给他们每人寄去一张明信片,询问他们打算怎样投票。

大样本并不能防止偏倚:当抽样框不正确时,抽取一个大的样本并无帮助,它只不过是在较大的规模下,去重复基本错误。

(一)设计抽样方案的基本原则 (1)效果最佳原则:

— 在固定费用下,选取调查精度最大的方案;

— 在要求的精度下,做到调查费用最小。

(2)可操作原则

  根据现有的数据条件以及时间进度要求,设计便于操作的抽样方案。

4.4 如何选取样本

(3)代表性原则:样本尽可能对总体有很好的代表性          调查者不根据主观意图挑选调查单位

定额抽样:样本被精心挑选,以使在某些关键特征上与总体相似。

例如:在 St. Louis 的访问人员访问 13 个对象,并规定其中6 人住在近郊, 7 人住在市中心;男人 7 名,女人 6 名;在男人中, 3 人 40岁以下, 4 人 40岁以上; 1 名黑人, 6 名白人。6 名白人支付的月租: 1 人支付的金额不少于 44.01$ 3 人支付的金额为 18.01~ 44.00 $ 2 人支付的金额不超过 18.00 $ 年份 预测共和党得票 共和党实际得票 偏差 1936 44 38 6 1940 48 45 3 1944 48 46 2 1948 50 45 5

在规定定额内,访问人员可以自由选取任何人。

有利于共和党的

案例: Gallup1936~1948 年采用定额抽样

Gallup民意测验在 1948 年后总统选举中的记录(随机抽样:访问员无任何自主处理的权利)

年份 样本容量 获胜候选人 预测值 选举结果 误差

1952 5385 艾森豪威尔 51.0% 55.4% +4.4%

1956 8144 艾森豪威尔 59.5% 57.8% -1.7%

1960 8015 肯尼迪 51.0% 50.1% -0.9% 1964 6625 约翰逊 64.0% 61.3% -2.7% 1968 4414 尼克松 43.0% 43.5% -0.5% 1972 3689 尼克松 62.0% 61.8% -0.2% 1976 3439 卡特 49.5% 51.1% +1.6% 1980 3500 里根 55.3% 51.6% -3.7% 1984 3456 里根 59.0% 59.2% -0.2%

1988 4089 布什 56.0% 53.9% -2.1%

(二)常见的抽样方法 ( 1 )简单随机抽样 对北航学生的研究能力进行抽样测试。在北航全校学生中随机

抽取 1000 名学生。 ( 2 )分层抽样 分层次抽样:专科、本科、研究生、博士、博士后。 ( 3 )整群抽样 在本科生中,随机抽取若干个班,观察每个班的全部学生。 ( 4 )分段抽样 全国调查,随机抽取若干省,再随机抽取若干市,再随机抽取若干区, ... ...

( 5 )非随机抽样 在临沂小商品市场抽样,询问进货地点。编制抽样框很困难。

(二)常见的抽样方法

原则:调查者不能根据主观意图挑选调查单位。而是在总体中,按照随机原则和纯粹偶然性的方法抽取样本。

4.5 简单随机抽样方法简单随机抽样: 每一个容量为 n 的可能样本被抽到的概率都是一样的。

方法: ( 1 )抽签法 ( 2 )随机数发生器 抽签法 : 先将调查总体的每个单位编上号码,然后将号码写在卡片上搅拌均匀,任意从中选取。抽到一个号码,就对上一个单位,直到抽足预先规定的样本数目为止。

放回抽样

无限总体有限总体

无放回抽样简单随机抽样 N

N

优点: 可以获得一个无偏倚的样本

使用限制:实施操作并不简单

( 1 )保证样本点分布均匀;

( 2 )有时 , 调查人员要了解所有样本中的个体有时是很困难的。

( 3 )样本容量较小时,一些比例少但是很重要的个体不能入样,使样本的代表性受到影响。

例如:在人民银行随机抽取 100名职员,可能会抽不到高层管理人员。

TBT 调查在全国抽 1000家企业,可能会有许多大型企业不能入样。

(1) 对总体均值 的估计

放回抽样 总体均值的点估计

总体均值的区间估计(抽样误差)

/ 2 / 2( , )s s

x t x tn n

1

2

1

( )

n

ii

x xn

D xn

不放回抽样 总体均值的点估计

总体均值的区间估计 [ 自由度 df = (n-1)]

1

2

1

( )1

n

ii

x xn

N nD x

N n

nnNnN

NnN

N

NnN

22

1

11

,

1

注意:

。当

”系数 。“称为有限总体的 修正

同样样本容量下,不放回抽样的误差更小!同样样本容量下,不放回抽样的误差更小!

/ 2 1

N n sx t

N n

N— 总体中的个体数量

n — 样本容量

例: 某居民区共有 N = 200户居民,随机抽取 n = 20

位居民,他们每日收看电视的时间如下:

60 90 100 30 90 60 180 80 70 90

180 120 30 60 90 120 80 80 100 90

求该居民区居民平均每日收看电视时间的点估计和区间估计 , 置信度要求为 95%.

求该居民区居民平均每日收看电视时间的点估计和区间估计;

179020

93.38

1200

20-2002.09390

093.2)19( 05.0

93.387895.1515

7895.1515909090909060120

1

90]901009060[20

1

2/

2222

区间估计:

(分钟)

t

s

s

x

相对误差为:  17 / 90 = 19% (显然,样本容量不够大)

(2) 总体比例的估计 ( 大样本)放回抽样

/ 2

ˆ (

1ˆ ˆ( ) , ( ) (1 )

ˆ ˆ(1 )ˆ

Ap

Na

pn

E p p D p p pn

p pp z

n

总体比例:

样本比例: 点估计)

区间估计:

n

pp

N

nNzp

N

nNn

pp

N

nNpDppE

n

ap

)ˆ1(ˆ

1ˆ )2(

1

)1(

1)ˆ( ,)ˆ(

ˆ )1(

2/

区间估计:

“ ”称为 修正系数其中:

点估计:

不放回抽样

例题:某城市想要估计下岗职工中女性所占的比例,随机抽取了 100 名下岗职工,其中 65 人为女性。试估计该城市下岗职工中女性比例,并指出估计误差。置信水平要求为 95% 。

已知 n=100, = 0.05,

/ 2

ˆ ˆ(1 )

1

N n p pz

N n

ˆ 65%p / 2 1.96z

不放回抽样的置信区间半长:0.65 0.35

1.96 9.35%100

放回抽样的置信区间为:

N

0.65 0.350.65 1.96

10065% 9.35%

(3) 样本容量的确定   

问题 : 估计某地区的平均收入

假若已知: = ¥4000

希望抽样误差 D = 500

并且要求置信度为( 1- ) = 0.95

问 : 样本容量应该多大 ?

x

95% C. I.is _(_______._______)_

要求

则 :

样本容量应不少于 246 人。

)4000

96.1,4000

96.1(n

xn

x

500D x

5004000

96.1 n

D

86.245500

)4000(96.12

22

n

x

D

/2D zn

估计总体均值时需要的样本容量

在构造总体均值 的置信度为 (1-) 的置信区间时 (总体方差已知)

置信区间的半长 D 等于

/ 2 / 2( , )x z x zn n

2

22

2/

Dz

n

放回抽样

/2 /2z zD n

Dn

例题: 某厨具代理商欲了解其长期用户每月平均购买支出额。问至少要抽取多大容量的样本,才能使样本均值与总体均值的绝对误差在置信度不低于 95% 的条件下小于 1 ?

问题 1. 总体标准差 在抽样之前未知!问题 2. 在未确定样本容量 n 之前,还没有 抽样,因此无法计算样本标准差!

2

22

2/

Dz

n

解: 先在该公司固定用户中随机抽取 n=30

的样本, 经计算得到: s =13.12

95% C.I.

精度不够(要求误差为 1101 ): D =1

,110x

)7.4110 ,7.4110(

)30

2.1396.1110 ,

3012.13

96.1110(

6611

12.1396.12

n

如何确定调查所需要的精度 D

应用时,由于存在量纲问题,可以采用相对误差:

2

2

4sn

D

2

2

4

( )

sn

r x

D

r D r xx

10 ,1000

10 ,100

Dx

Dx

所以常用的方法是:

100, 5%, 5

1000, 5%, 50

x r D r x

x r D r x

不放回抽样 置信区间:

抽样误差范围:

要求样本容量为:

00

0

1n

Nnn

n

/ 2 / 2( , )1 1

N n s N n sx t x t

N Nn n

nst

NnN

D 2/

1

6611

12.1396.12

0

n

例:

4978.4962000/6611

661

1 0

0

Nnn

n

假如固定用户: N = 2000

注:有时为计算方便起见,常取简单随机抽样所需要的样本容量代替 n 。这是一种保守的做法,但计算简单,在实际调查中经常使用。

估计总体比率时需要的样本容量

置信度为 (1-) ,总体比率 p 的置信区间为

置信区间的宽度为

样本容量为

问题:在调查之前 是未知的

)/ˆˆˆ,/ˆˆˆ( 2/2/ nqpzpnqpzp

Dqpz

nnqpzDˆˆ

/ˆˆ 2/2/

2

2

2/ ˆˆD

qpzn

p

放回抽样

解决的办法:

1 0.1 0.2 0.3 0.4 0.5 0.6 …...

0 0.9 0.8 0.7 0.6 0.5 0.4 …...

= 0.5 = 0.5

所以样本容量 n 的最大值是:

p

p1

p

2

2

2/25.0D

zn

p1 取

由于在比例问题中没有量纲问题,因此没有必要考虑相对误差。

例题: 北京地区观众调查网的置信度要求 90%, 误差

要求不超过 3% 。求所需要的样本容量。 解 : (1- ) = 0.90 , , D=0.0365.12/ z

人)(75603.0

65.125.0 2

2n

00

0

1n

Nnn

n

不放回抽样:

( 4 ) 总体总值的估计

1. 例题: 某工厂欲了解工人由于停工待料及机器故障所造成的每周工时损失。全厂共有 750 人。从中抽取 50 个工人进行调查,得到每个工人平均每周的工时损失数为 小时,且 。估计全厂由于停工待料及机器故障造成的工时损失数。(=0.05 )

31.10y 25.22 s

2 750, 50 , 10.31, 2.25

Y

N n y s 已知:

求: 总体总值 的点估计和区间估计。

2. 点估计方法

计算公式:

问题:为什么要先求样本均值 ,再求 ? 为什么不直接用公式:

答案:( 1 ) ( 2 ) 样本均值的波动小于个别观测值 yi 的波动。

n

iiy

nN

yNY1

ˆ

n

iiy

nN

yNY1

ˆ

y yNY ˆ

n

iiyY

1

ˆ

/)( 2 nyD

例如,我们很可能从总体中抽取一个身高 1.80 的个体,但却不可能抽取一个身高平均值为 的 10 个人的样本。在样本中,高、中、矮个子互相平均后,对总体的概括性更强。

80.1y

N

i i

n

i i yy11

点估计:

区间估计:

Y N y

22

2

22

(ˆ( ) ( ) ( )

(1

NnD Y D N y N D y

N nN

N n

放回抽样)

不放回)

)ˆ(ˆ2/ YDtY

由此可见,总值估计的抽样误差要比均值估计的抽样误差扩大 N 倍。但是相对误差不变。

例题:

Y

25.2 ,31.10 , 50 ,750 2

的点估计和区间估计。总体求:已知: synN

22 2

ˆ 750 10.31 7732.5 (

750 50 2.25ˆ( ) 750 24470.521 750 1 50

1

7732.5 1.96 24470.52 7732.5 306.60

Y N y

N n sD Y N

N n

小时)

( )置信区间:

306.600.04

7732.5相对误差等于:

4.6 系统抽样 又称“等距抽样”或“机械抽样” 特点——组织形式简单:只要确定抽样起点和间隔,就可确定整个样本单位。 ( 1 )按照无关标志排队,按间隔抽取 例如:调查某企业职工收入时,按照姓氏比画排列职工名单,进行抽样。显然,职工工资与姓氏比画之间没有必然联系; ( 2 )按照有关标志排队,按间隔抽取 例如:进行农产量调查时,将总体单位按照上一年度的产量高低排序。这样,可以使标志值高低不同的单位均进入样本,样本单位在总体中分布均匀,抽样误差较小。 ( 3 )按照自然位置顺序排列,按间隔抽取 例如:工业产品检验时,按照生产时间顺序,每间隔一定时间抽取一定数量的样本;检验一打发票时,可以按照顺序,每隔 10张抽取 1张;在估计果园的产量时,每隔 7株抽取 1株。

方法:随机起点,等距抽取。 ( 1 )按照某种顺序给总体中的 N 个单元排列编号; ( 2 )按照随机数表,随机抽取一个编号 i 作为样

本的第一个单元; ( 3 )计算间距:

(4)起始的样本点编号选取 1~k 之间的随机数。然后

依次抽取编号如下的 n 个单元作为样本点。

n

Nk

knikikii )1(,,2,,

总体N = 60

从此开始

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 抽中 抽中

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

抽中

31 32 33 34 35 36 37 38 39 40 41 42 43 44 45抽中 抽中

46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

( 106

60K )

7 17 27 37 47 57 样本 n= 6

例如:中央电视台在建立收视率调查网时,要在某居委会拥有电视的 512户中抽取 5 个样本户。

在 [0,102] 中任意确定一个三位数,例如是 071 。则被抽中的 5

户为: 71 , 173 , 275 , 377 , 479

在 [0,512] 中任意确定一个三位数,例如是 0171 。则被抽中的 5

户为: 171 , 273 , 375 , 477 , 67 ( =579-512 )

512512, 5, 102.4 102

5N n k

抽样误差的大小与总体单位的排列顺序有关: ( 1 )如果总体中所有单元的排列编号是随机的,并且 n 比 N

小得多的话,那么等距抽样的精度和简单随机抽样的精度是十分相近的。

(例如,按照姓氏比画或按照行政单位编号排序。) ( 2 )如果总体单元是按照某个与调查项目有关的变量的大小排序,由于等距抽样的样本点分布更加均匀,则等距抽样的精度将高于简单随机抽样。

(例如,调查机械加工企业的工业增加值时,以用电量排序。) ( 3 )如果总体各单位的标志值存在周期变化趋势,而循环周期恰好等于抽样间隔,则等距抽样的精度低于简单随机抽样。

1, 2, 3, 4, 5, 6; 1, 2, 3, 4, 5, 6; 1, 2, 3, 4, 5, 6; 1,2,3,4,5,6; 1,2,3,4,5,6

4.7 不等概率抽样 在简单随机抽样中 , 规定总体中每一个单元被抽到的概率都是相等的。这种抽

样称为等概率抽样。它适用于总体中的各个单元“大小”基本相同,或者在总体中所占地位或重要性相差不大的情形。但是如果抽样单元在总体中的地位相差很多,则应该采用不等概率抽样。

例如: 1990年《亚运会》调查中,有一个对大学生的专项调查中,要在北京市 81所学校中抽取 n=10所大学。显然,学生人数在一万以上的大学和人数不足一千人的大学所占的地位不相同。如果继续采用等概率抽样,代表性会差,精度不理想。

PPS 方法 (Sampling with Probability Proportional to Size)

有放回的、按单元“大小”成比例的概率来抽取的方法 “大小”——单元的人数、面积、重量、增加值等等

PPS 方法的实施 在大学生调查中,先把 81所大学按照理工、综合、文法、农林……等分为八大类。在理工类的 N=30 所学校中,抽取 n=3 所学校。用在校学生人数来表示抽样单元(大学)的“大小”。那么,按照 PPS 方法,第 i 所大学被抽中的概率为:

( 1 )根据被抽中概率 Pi来分配每个单元所拥有的号码数。

( 2 )从随机数表的任意随机位置开始,以三个连续数字为一组查表,对应的三个三位数即代表被抽中的学校号码。

30 ;,,2,1 NNiN

iPi ,

所大学的总人数所大学的在校人数第

表 应用随机数字表的 PPS抽样

(从 N=30所大学中抽取 n=3所学校)

学校编号与名称 学校人数 抽中概率 0/00 顺序号码 抽中号码∨ 清华大学

北京航空航天大学 北京理工大学 北京工业大学 北京交通大学 北京科技大学 北京邮电学院 北方工业大学 北京化工学院

北京机械工程管理学院 。 。 。

联大化学工程学院 联大航天工程学院 北京石油化工专科学校

石油大学

10459 5587 5162 4472 4383 4111 3210 2792 2763 2045 。 。 。 。 315

273

245

243

175 93 86 75 73 69 54 47 46 34

5 5 4 4

000~174 175~267 268~353 354~428 429~501 502~570 571~624 625~671 672~717 718~751 。 。 。 。

982~986

987~991

992~995

996~999

109∨ 220∨

436∨

合计 N=30 59759 1000 共 1000个号码 带∨号的为所抽中的三所学校

总体均值的无偏估计为:

总体均值方差的无偏估计为:

总体总值的无偏估计为:

总体总值方差的无偏估计为:

n

i i

i

P

X

NnX

1

1

n

i i

i

P

X

nXNX

1

1总

n

i i

i XPX

nnS

1

2

2

)1(1

总总

n

i i

iX X

NPX

nnS

1

2

2

)1(1

4.8 分层随机抽样 一、分层抽样方法

例如: ( 1 )对北航学生的研究能力进行抽样测试。学生层次有:专科、本科、研究生、博士、博士后。

( 2 )对央行的某项政策意见进行调查。可以根据调查内容分层:不同的职务层次, 或者不同的部门、不同地区。

分层的原则: 例如 TBT影响调查:按照 36 个地区进行分层?(行政管理力度大) 按照 22类出口产品分层? (受损情况类似)

在所调查的指标上,各层的相似程度高,而且层间差异大

分层抽样的特点:

采用分层抽样,使每一层内的差异大大缩小,而每一个样本单位对各层均有较高的代表性。 利用已知信息,提高抽样调查的精度; 便于组织实施; 在调查中,除了得到总体的有关信息外,还可以得到一些子总体的信息 .

同样的样本容量下,分层抽样的抽样误差更小。同样的样本容量下,分层抽样的抽样误差更小。

应用 . TBT 影响调查的分层方法: — 按照产品分层

— 按照地区管理

二 . 总体均值的估计

例: 对某市 600 个个体商户的月零售额进行抽样调查,

现申报资金分为大、中、小三类,根据调查结果的数据整理如下表。试估计该市个体户的平均月零售额,并以 95% 的可靠性作出区间估计。

层次 Ni ni si2

大 60 30 20 16 中 240 40 8 4 小 300 40 1 0.5 总和 600 110

iy

计算方法:

NNW

yWyNN

Y

yNYi

riyn

yi

ii

i

r

ii

r

iii

iii

n

jij

ii

i

1ˆ )3(

ˆ )2(

,,2,1 , 1

)1(

11

1

其中

总体平均值的估计:

层总值估计:第

层样本均值:第

总体均值 = 各层均值的加权和

总体均值 = 各层均值的加权和

方差估计: ( 1 )放回抽样

( 2 )不放回抽样

i

ir

ii

r

iii nWyDWYD

2

1

2

1

2 )()ˆ(

2 2

2 2

1 1

2 2

ˆ( ) 11

,

r ri i i i

i i ii ii i i

ii i i

i

N n sD Y W W f

n N n

nf s

N

其中:

抽样比

例题:某市个体商户的月零售额的抽样调查

5.0 1 , 13.030040

4 8 , 17.024040

16 20 , 5.06030

233

3

33

211

2

22

211

1

11

syNn

f

syNn

f

syNn

f

3

1

2 2 2

1 1ˆ 60 20 240 8 300 1 5.7600

ˆ( )

60 16 240 4 300 0.5(1 0.5) (1 0.17) (1 0.13)

600 30 600 40 600 40

0.0187

5.7 1.96 0.0187 5.7 0.268 0.268 / 5.7 0.047

i ii

Y N yN

D Y

区间估计:

i

i

ir

i i fn

W

12

1

2

N=600

N1=60

n1 =30

N2 =240

n2 = 40

N3 =300

n3 =4 0

三 . 总体总值的估计:该市个体户的月零售总额

1. 点估计

2. 区间估计

ˆY N Y ˆY N Y

22

2

1

22

2

1

222

1)ˆ()2(

)ˆ()ˆ( )1(

ii

i

ii

i

ir

ii

i

ir

ii

s

N

nN

nWNYD

nWNYDNYD

应用时,取:

不放回抽样:

放回抽样:

)ˆ()ˆ( 2 YDNYD )ˆ()ˆ( 2 YDNYD

例题:某市个体户的月零售额的抽样调查,估计全市个体户总的月销售额。

2 2

ˆˆ 600 5.7 3420 (

ˆˆ( ) ( ) 600 0.0187 6732

3420 1.96 6732 3420 160.8156

160.8156/3420=0.047

Y N Y

D Y N D Y

千元)

置信区间:

0187.0)ˆ( 5.7ˆ 600 YDYN

所以有:

根据前面计算:

总体总值估计的与总体均值估计的相对误差不变

四 . 样本数目在层间的分配

问题:总的样本容量为 n , 总体分为 r 层。 每一层的样本容量应为多大? (一)等比例分层抽样 1. 分配方案计算方法 I

ii

r

NfniNn

f

n

NNNN

21

层中的样本数目为:则第

记:

样本容量为:

总体中的单位数: 在任意一层中,样本容量所占的比例都相同。在任意一层中,样本容量所占的比例都相同。

1,2,3 , iff i1,2,3 , iff i

例: N=1000, N1=600, N2=200, N3=200

要抽取容量为 n=200 的样本,问每一层应抽取多少个体?

解:

402002.0

402002.0

1206002.0

2.01000200

1

2

1

n

n

n

Nn

f

因此

2. 分配方案计算方法 II

nWn

riNN

W

ii

ii

,,2,1 ,

则:

记:

例: N=1000, N1=600, N2=200, N3=200

402.0200

402.0200

1206.0200 :200

2.0 ,2.0 ,6.0

3

2

1

321

n

n

nn

WWW

iNfiNN

nin

nin

iWN

iN

iNfiNN

nin

nin

iWN

iN

3. 等比例分层抽样,总体均值的估计量 点估计:

区间估计: ( 1 )放回抽样的方差

i

r

ii yWY

1

ˆ

nWn

nnn

Wn

WYD

r

iii

i

ir

i

ii

i

ir

ii

/1

)ˆ(

2

1

2

2

1

2

1

2

其中, 表示平均层内方差。2

nfWfn

nnn

Wffn

WYD

r

iii

i

ir

i

iii

i

ir

ii

/)1()1(1

)1()1()ˆ(

2

1

2

2

1

2

1

2

( 2 )不放回抽样的方差

22 iis 操作时,取:

由于各层内的单元变化程度比较小,分层后有

2

1

22

1

2

1

2

22

r

ii

r

iii

r

ii

i

WWW

因此,同样的样本容量下,分层抽样的抽样误差更小。因此,同样的样本容量下,分层抽样的抽样误差更小。

(二)奈曼分配(最优分配法)(按照层内方差大小分配样本数量) 等比例分层抽样是一种较简单的考虑问题的方法,但没有考虑到层内方差的大小。实际上:

在第 i 层

i

ir

iii

r

ii n

WyDWYD2

1

2

1

2 )()ˆ(

总均值的方差等于各层方差的加权和。总均值的方差等于各层方差的加权和。

)( , )( 22

iii

ii yD

nyD

若层内方差越大,可以多分配一些样本,这可使层内误差降低;若层内方差很小,可以少抽一些样本,而该层抽样误差也不至于太大。(注意:并非层内的单位数量大,其方差就一定大。)

奈曼分配原则:

按比例分配:

r

ii

r

ii

i

i

ii

nnts

Nn

ns

WYD

1

1

22

1)ˆ(min

解此数学规划问题,得到最优解为

r

iii

r

iii

r

iii

iii

sWN

sWn

YD

sN

sNnn

1

22

1

1

11)ˆ( 方差为:

r

iiN

iNnn

NiN

in

1

决策变量是: ni

五 . 总体比例的估计

i

iii

r

ii

i

ii

i

iir

iii

r

ii

i

r

ii

n

ppfW

n

pp

N

nNWpDWpD

pWp

)1()1

)1(

1)ˆ()ˆ(

ˆˆ

1

2

1

2

1

2

1

不放回抽样

例题: 某广告公司要了解电视广告的作用,拟在有关对象中调

查看电视广告的比例。设对象分为三层:

N1=155, N2=62, N3=93,

样本容量为 40 。采用等比例分层抽样,调查结果为:第一层看电视广告的比例为 0.8 ,第二层的比例为 0.25 ,第三层的比例为 0.5 。试以 95% 的可靠性,估计调查对象中收看电视广告比例的置信区间。

i

iii

r

iii

r

ii n

ppfWpDpWp

)1()1)ˆ( ;ˆˆ

1

2

1

N=155 + 62 + 93 =310

n =40

12403.0 , 3.031093

8402.0 , 2.031062

20405.0 , 5.0310155

33

22

11

nW

nW

nW

由调查结果:

6.05.03.025.02.08.05.0ˆ

5.0ˆ 25.0ˆ 8.0ˆ

p

ppp iii

则有

129.0310/40 f

方差估计:

32

1

2 2

2

ˆ ˆ(1 )ˆ( ) (1 )

0.8 0.2 0.25 0.750.5 1 0.129 0.2 1 0.129

20 80.5 0.5

0.2 1 0.129 0.004212

0.0042 0.065

95%

0.6 1.96 0.065 0.6 0.1274

i ii

i i

p pD p W f

n

s

所以, 置信区间为

从总体看,观看广告的比例约为 60% ,估计误差约为 ,估计的可靠性为 95% 。%13

一、整群抽样方法:

整群: 是一个自然出现的单位 (例如一所大学、一个班级、一所医院、一 个支行等等。)

整群抽样: 群是随机抽取的,被抽中的群的所有成员都包含在样本中。

例 : ( 1 )一批进口的苹果 ,检验时随机抽取 n 箱,然后对每箱中的所有苹果进行检验。 ( 2 )调查北京市近视眼的学生比例,抽取若干所中学,对每一所中学的全部学生 进行调查。

4.9 整群抽样和多级抽样简介

为什么要进行整群抽样?

( 1 )缺乏“总体单位的抽样框” 包含总体中所有单位的名单并加以编号。 原因:总体很大,要汇总一个总体目标全部成员的详尽名单是

不可能的,或者费时费力。

例如,要整理出央行职员的全部名单并编码会比较困难。而得到一张央行支行的名单则比较容易。

( 2 )总体范围很大,使用简单随机抽样会使样本十分分散,调查时花费的人力、物力很大。

例如,即使有了央行全体职员的名单,要抽取的职员如果分散在全国各个支行,进行调查是也十分费时、费力。而集中在几个支行调查,就非常方便、节省时间与经费。

——操作便捷

整群抽样的分群原则 问题:可否把分层抽样的分层原则用于整群抽样?

整群抽样的分群原则: 使群间方差尽可能小; 使群内方差尽可能大!!!

如果群内的差异比较大,在每个群中,单位的分布近似于总体分布,那么只要任意抽取一个群,进行观测,就可以推测总体。

例如:要了解北航学生的研究能力,把全部学生分成博士生、

硕士生、本科生和大专生。然后采用整群抽样方法。—不可取

案例: 北航学生节水意识调查

采取整群抽样的原因:如果没有接受特殊的教育,可以认为节水意识与学生所在的年级或专业没有直接联系。

(组间差异不大,组内分布和总体相仿。)

分成两个总体进行分析:

( 1 )住在大运村的同学 / 住在校内宿舍的同学

( 2 )接受节水教育前的总体 / 接受节水教育后的总体

思考问题:哪一类问题调研可以使用整群抽样?

哪一类问题调研需要使用分层抽样?

二、多级抽样 (多阶段抽样 )

多级抽样: 是改良的整群抽样。当一个群被抽出后,又在群中抽取部分个体。

优点:当样本容量确定时,分阶段抽样的样本分布更为均匀,代表性更强。

应用领域 : 广泛应用于大规模的社会调查,特别是当抽样单元为各级行政单位时,一般都采用多级抽样。

例如:进行全国收视率调查时,先抽几个省,然后在从抽中的省中抽市,再抽县、村,最后再抽至户。

4.10 抽样调查的误差来源4.10 抽样调查的误差来源

抽样误差:由于抽选样本的随机性而产生的误差 (由于概率抽样方式不同所造成,是可以估计的) 非抽样误差:除抽样误差外,由其他各种原因而引起的误差。 产生非抽样误差的主要原因: ( 1 )抽样框误差:目标总体不等于抽样总体,如遗漏了有关单位,或包含了非目标单位;观测之间的复合连接;分层方案设计不当等。

( 2 )无应答误差:受调查人有意识不合作;无意识(由于客观原因无法接受调查,填写问卷时粗心);

( 3 )计量误差:问卷设计不合理、调查指标含义不清、计量单位不标准,选择的统计量和推算方法不适当等。

调查误差 = 抽样误差 + 非抽样误差

案例:调查中的非抽样误差1 、分层抽样方案设计不当,造成选择偏倚:按产品分层(样本分配原则是出口额高的产品多抽;对于一个产品,根据其出口额在全国各地分布分配样本。)

问题:

2 、样本点之间的复合连接 ,造成重复统计

例如: 企业类型(生产型企业、流通型企业)

3 、抽样框中包含非目标单位:若以上年企业出口额作为抽样依据;但该企业的受调查产品当年没有出口。减少有效样本数量

4 、避免调查表中内容的歧异:“所调查的产品” “本问卷所调查的产品”

一些出口总额小的地区会不能入样。

问题与思考:   20 世纪 80 年代,美国可口可乐公司耗资 500 万美元,进行了历时 2年的市场调查,调查了近 20万名消费者。决定放弃传统配方,推出一代新的可口可乐。却几乎产生灾难性的后果。

可口可乐发展将近百年。但在 20世纪 80年代,它的市场销售增长率从平均每年13% 猛降到 2%。市场占有率从曾是百事可乐的 2倍,变成只领先 2.9 个百分点。

市场调查与决策:( 1)出动 2000 名调查员,在 10个主要城市调查消费者的口味。问卷的主要问题是:“如果在可口可乐配方中增加一种新的成分,使它喝起来更柔和,您愿意吗?结果有一多半的人表示接受,只有 11% 的人表示不安。

( 2)公司投资 400 万美元进行大规模的口味尝试活动。 13个大城市的 19.1 万消费者参与口味尝试活动。在众多口味饮料中,消费者对新口味可乐青睐有加。 55% 的品尝者认为新口味超过传统配方。结论:立即生产新可乐。

( 3)经过与全世界瓶装厂商量,并进行财务预算,公司决定:用新可乐代替传统可乐,停止传统可乐的生产与销售。

结果: 新饮料上市 4个小时,可口可乐公司接到 650 个抗议电话。 10天后,每天接到 5000 多个抗议电话。更有雪片似的抗议信件。有人甚至说要改喝茶水来代替可乐。公司不得不开辟 83个热线,雇佣大量的公关人员来处理这些抱怨和抗议。

3 个月以后,市场调研表明,只有不到 30% 的消费者说新可乐的好话了。愤怒的情绪在美国蔓延。社会学家认为,可口可乐公司把一个神圣的象征毁掉了。

罗伯特 .戈伊朱埃塔不得不率领公司全体高层管理者站在可口可乐的标志下,向公众道歉,并宣布立即恢复传统配方生产。全国一片沸腾。有议员在参议会回上发表演说:“这是美国历史上一个非常有意义的时刻,它表明有些民族精神使不可更改的。”

问题的根源是什么? 耗资巨大、范围广泛、被调查者反映良好

问卷设计的问题:在调查生产新饮料的同时,忘记询问:“如果是在停止老饮料的情况下,您是否会选择新的饮料?”

事后调查表明:几乎多有被调查的人都认为,公司是在保留老可乐的情况下,询问对多一种口味的可乐的态度。

(而决策是放弃老饮料)

总结:抽样方案的设计原则 便于组织实施

切实考虑工作条件和工作周期要求。

避免重要的非抽样误差

详细分析可能出现的非抽样误差,并在工作环节的设计中设法消除这些因素的不良影响。

减少和控制抽样误差

设计科学、合理的抽样方案,使样本在总体中分布均匀合理,更具代表性。

4.11 调研报告的文本结构4.11 调研报告的文本结构1 、封面:调研报告的题目名称2 、标题页:调研项目的题目和委托方、报告方、报告日期3 、目录:报告章节及相对应的起始页码。4 、调查目的(前言):说明这次调查活动的调查目的、内容,以及所要了解的问题。

5 、调查说明:调查时间、调查区域、抽样方法、样本容量、回收率、回收样本结构

6 、调查结果和结论摘要7 、正文:紧扣调研目的,用叙述、表、图来表达所发现的结果。需要的情

况下,指出报告的局限性。8 、建议 :对调查目的贡献,调查重大发现,及相应对策。9 、附件:问卷样式、抽样技术、编码表等。10 、参考文献、相关网络资料及其来源出处。

1 、封面:调研报告的题目名称2 、标题页:调研项目的题目和委托方、报告方、报告日期3 、目录:报告章节及相对应的起始页码。4 、调查目的(前言):说明这次调查活动的调查目的、内容,以及所要了解的问题。

5 、调查说明:调查时间、调查区域、抽样方法、样本容量、回收率、回收样本结构

6 、调查结果和结论摘要7 、正文:紧扣调研目的,用叙述、表、图来表达所发现的结果。需要的情

况下,指出报告的局限性。8 、建议 :对调查目的贡献,调查重大发现,及相应对策。9 、附件:问卷样式、抽样技术、编码表等。10 、参考文献、相关网络资料及其来源出处。

生命26%

地学15%化学

12%

信息14%

工程17%

材料9%

数理7%

生命24%

地学18%化学

15%

信息15%

工程14%

材料8%

数理6%

问卷回收情况问卷回收情况

回收问卷的 141 个实验室的学科分布与全部 222 个实验室的学科分布大致相同,所以回收的问卷有一定的代表性。

所有实验室的学科分布情况 已回收问卷所在实验室的学科分布情况

对 222 个国家重点实验室发放了调查问卷, 并由熟悉实验室工作的实验室主任或相关人员进行回答。实际回收 141份,回收率 63.5% 。

国家自然科学基金对国家重点实验室的资助绩效分析国家自然科学基金对国家重点实验室的资助绩效分析(2010)(2010)

8080

课外练习

采用抽样调查方法,估计全班同学的平均身高

1 、首先:计算总体均值和方差 (留做参考)

2 、计算抽样误差 D

3 、计算样本容量

4 、等距抽样

随机起点,等距抽取: (可以尝试起点大于 k )

5 、给出点估计和区间估计

2

0 2

4

( )

sn

r x

0

0

0

1n

Nnn

n

00

0

1n

Nnn

n

n

Nk

2 1

N n sx

N n

2

1

N n sx

N n

D r x ( 2 , 2 )s s

x xn n

( 2 , 2 )s s

x xn n

作业

一、《统计学》各章练习题:    第 7.13 题 第 7.14 题

二、 抽样调查作业