第四章 基本统计分析

76
第第第 第第 第第第

Upload: curran-beach

Post on 04-Jan-2016

101 views

Category:

Documents


4 download

DESCRIPTION

第四章 基本统计分析. 一、基本统计分析功能. 基本统计分析功能包括: 1. 报告分析 ( Report )(有兴趣的自学) 2. 描述性统计分析 ( Descriptive Statistics ). 报告分析简介:. 报告分析包括: 1. OLAP 在线分析处理过程 2. 报表 根据报表制作的侧重点不同,可以分为 3 种: ( 1 )个案简明统计报表 ( Cases Summary ) ( 2 )行形式报表( Report Summaries in Rows ) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第四章 基本统计分析

第四章 基本统计分析

Page 2: 第四章 基本统计分析

基本统计分析功能包括:1. 报告分析( Report )(有兴趣的自学)2. 描述性统计分析( Descriptive Statistics )

一、基本统计分析功能

Page 3: 第四章 基本统计分析

报告分析简介:• 报告分析包括: 1.OLAP 在线分析处理过程

2. 报表• 根据报表制作的侧重点不同,可以分为 3 种: ( 1 )个案简明统计报表( Cases Summary ) ( 2 )行形式报表( Report Summaries in Row

s ) ( 3 )列形式报表( Report Summaries in

columns )

Page 4: 第四章 基本统计分析

描述性统计分析( Descriptive Statistics )

• 1. Frequencies 频数分析• 2. Descriptive 描述性统计分析• 3. Explore 探索分析(自学)• 4. Crosstabs 列联表分析• 5. Ratio 比率分析(自学)

Page 5: 第四章 基本统计分析
Page 6: 第四章 基本统计分析

二、频数分析

• (一)频数的定义 频数就是一个变量在各个变量值上取值

的个案数。 可编制频数分布表和绘制统计图,把握

数据分布的基本特征。• (二)命令 Analyze/Descriptive statistics/Frequencies

Page 7: 第四章 基本统计分析

选择一个或多个变量右移入 Variable( s )框。

统计量

显示频数分布表

统计图 频数输出的顺序

Frequences 主对话框

Page 8: 第四章 基本统计分析

输出统计量对话框

Page 9: 第四章 基本统计分析

Chart 对话框

Page 10: 第四章 基本统计分析

Format 对话框

按各个变量组织输出,输出结果将按照每个变量一张表的形式显示

按频数的升序输出

按变量值的升序输出

统计表中变量的各项分析结果在一张表并列显示

控制频数表输出范围类型的最大数目为

Page 11: 第四章 基本统计分析
Page 12: 第四章 基本统计分析
Page 13: 第四章 基本统计分析
Page 14: 第四章 基本统计分析

某频次分析结果演示

Page 15: 第四章 基本统计分析

统计量统计量

兄弟姐妹的个数1505

12

3.93

3.00

3.047

1.468

.063

3.507

.126

0

26

有效缺失

N

均值中值标准差偏度偏度的标准误峰度峰度的标准误极小值极大值

Page 16: 第四章 基本统计分析

条形图

Page 17: 第四章 基本统计分析

饼图 ( 圆饼图 )

Page 18: 第四章 基本统计分析

直方图

Page 19: 第四章 基本统计分析

三、计算基本描述统计量

(一)功能: 对变量进行描述性统计分析,计算均值、标准差、全距和均值标准误差等,并可将原始数据转换成 Z 分数。(二)调用命令: 按 Analyze/Descriptive Statistics/ Descriptives 顺序单击,打开主对话框。

Page 20: 第四章 基本统计分析

选一个或多个变量移入

如选中此框,将对Variables 框中选择的变量进行标准化产生相应的 Z 分值,并作为新变量保存到数据窗口,其变量名在原变量名前加 z 。

Descriptive 对话框

Page 21: 第四章 基本统计分析

Options 对话框

Page 22: 第四章 基本统计分析

(三 ) 例题分析 已知 20 个初生婴儿的体重数据如下表,对其进行描述统计。

2770 2915 2795 2995 2860 2970 3087 3126 3125 4654

2272 3503 4218 3418 3921 2669 3707 2310 2573 3881

提示:可以利用 DATA 中的 TRANSPOSE 进行转置取得 SPSS数据文件。

Page 23: 第四章 基本统计分析

打开数据文件“婴儿体重 .sav” 。打开 Descriptives 主对话框,选定变量 t 进入Variable 栏中。

选中 Save standardized values as variables 复选框,要求计算变量的 z 值,并保存结果到当前数据集中。

单击 Options 按钮,选中Mean、 Std.Deviation、Minimum、Maximum 、 Variance 项。

操作步骤:

Page 24: 第四章 基本统计分析

Descriptive Statistics

20 2272.00 4654.00 3233.4500 653.233520

婴儿体重Valid N (listwise)

N Minimum Maximum MeanStd.

Deviation

婴儿体重的描述统计量

Page 25: 第四章 基本统计分析

这时打开原数据集,可看到多了一列 zt ,这是 t 的 z 分数,如下图所示:

保存了 z 分数的数据集

Page 26: 第四章 基本统计分析

(一)主要功能

调用此过程可检查数据是否有错误、考察样本分布特征及对样本分布规律作初步考察。剔除奇异值和错误数据。探索分析过程将提供在分组和不分组的情况下常用的统计量与图形。

(二)探索分析

按 Analyze Descriptive Statistics Explore 顺序单击,打开 Explore 主对话框。

四、探索分析过程 转交叉列联表分析

Page 27: 第四章 基本统计分析

Explore 主对话框

Page 28: 第四章 基本统计分析

Statistics 对话框

Page 29: 第四章 基本统计分析

Explore 栏中 Plots 对话框

Page 30: 第四章 基本统计分析

确定缺失值的处置:•因变量或分组变量中带有缺失值的观测量都将在分析过程中被剔除。•在分析过程中根据分组变量产生的组中带缺失值的观测量都将被剔除。•分组变量的缺失值被单独分为一组,输出频数时将标出缺失组。

Explore 栏中 Options 对话框

Page 31: 第四章 基本统计分析
Page 32: 第四章 基本统计分析

(三 ) 例题:下表为 30名 10 岁少儿的身高( cm )数据,试对其进行探索分析。

编号

身高 编号

身高 编号

身高男 女 男 女 男 女

1 131.5 132.7 6 135.5 137.5 11 132.2 124.0

2 137.4 133.0 7 121.4 141.4 12 129.0 140.3

3 128.2 139.7 8 129.2 138.8 13 132.6 130.1

4 136.0 125.4 9 135.4 120.9 14 140.9 133.4

5 140.4 138.6 10 135.8 137.5 15 129.3 136.7

Page 33: 第四章 基本统计分析

步骤:打开 Explore 主对话框,打开数据文件“ Explore

分析 .sav” 选变量 height 进入 Dependent List 栏中,选 sex 变量进入 Factor List 栏中;

在 Display 栏中选择 Both 项;

打开 Statistics 对话框,选中 Descriptives 、M-estimation 、 Outliers 复选项,单击 Continue 返回;

打开 Plot 对话框,选择 Boxplots 栏中的 Factor levels together 项,选择 Descriptives 栏内的 Stem-and-leaf 复选项,选择 Spread vs level with levene Test 栏中的 Power estimation 项,单击 Continue 返回。单击 OK

Page 34: 第四章 基本统计分析

Case Processing Summary

15 100.0% 0 .0% 15 100.0%15 100.0% 0 .0% 15 100.0%

SEX12

HIGHTN Percent N Percent N Percent

Valid Missing TotalCases

观测量摘要表

M-Estimators

133.0168 133.1928 133.1157 133.1930135.4183 136.2104 135.1852 136.2327

SEX12

HIGHT

Huber'sM-Estimatora

Tukey'sBiweightb

Hampel'sM-Estimatorc Andrews' Waved

The weighting constant is 1.339.a. The weighting constant is 4.685.b. The weighting constants are 1.700, 3.400, and 8.500c. The weighting constant is 1.340*pi.d.

M 估计量表

Page 35: 第四章 基本统计分析

Descriptives

132.9867 1.3276130.1391

135.8342

133.1907132.6000

26.4405.1420121.40140.9019.50

6.8000-.466 .580.434 1.121

134.0000 1.6428130.4765

137.5235

134.3167136.7000

40.4836.3626120.90141.4020.50

8.7000-.894 .580-.275 1.121

MeanLower BoundUpper Bound

95% ConfidenceInterval for Mean

5% Trimmed MeanMedianVarianceStd. DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosisMean

Lower BoundUpper Bound

95% ConfidenceInterval for Mean

5% Trimmed MeanMedianVarianceStd. DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosis

SEX1

2

HIGHTStatistic Std. Error

少儿身高的分组描述统计量

Page 36: 第四章 基本统计分析

Extreme Values

14 140.905 140.402 137.404 136.00

10 135.807 121.403 128.20

12 129.008 129.20

15 129.3022 141.4027 140.3018 139.7023 138.8020 138.6024 120.9026 124.0019 125.4028 130.1016 132.70

12345123451234512345

Highest

Lowest

Highest

Lowest

SEX1

2

HIGHTCase Number Value

少儿身高的极端值

Page 37: 第四章 基本统计分析

Test of Homogeneity of Variance

.815 1 28 .374

.402 1 28 .531

.402 1 23.898 .532

.753 1 28 .393

Based on MeanBased on MedianBased on Median andwith adjusted dfBased on trimmed mean

HIGHT

LeveneStatistic df1 df2 Sig.

方差一致性检验

零假设是分组后的方差相等。表中四行是依据不同的统计量得到的检验,分别是基于均值、基于中位数与调整后的自由度和基于调整后的均值。由于其显著值均大于 0.05 ,不能否定零假设,即可以认为男生和女生的身高的方差是无差异的。

Page 38: 第四章 基本统计分析

从左到右分为三部分:频数、茎和叶。茎是整数部分,叶是小数部分, Stem width 表示茎宽。每行的茎和叶组成的数字再乘以茎宽,即得到实际数据的近似值,实际数据中与该近似值靠近的值的个数即为频数表示的个数。

茎叶图HIGHT Stem-and-Leaf Plot for

SEX= 1

Frequency Stem & Leaf

1.00 12 . 1

4.00 12 . 8999

3.00 13 . 122

5.00 13 . 55567

2.00 14 . 00

Stem width: 10.00

Each leaf: 1 case(s)

Page 39: 第四章 基本统计分析

箱式图方形是箱式图的主体,上下边为四分位数,中心粗线为中位数,变量的 50% 的观测值落在这一区域中。方形上下两条纵向直线是触须线,触须线外的两端线为本体的最大值和最小值。本体指除奇异值外的变量值。奇异值用“ O” 标出,本例中无奇异值。

1515N =

SEX

21

HIGHT

150

140

130

120

110

Page 40: 第四章 基本统计分析
Page 41: 第四章 基本统计分析

五、列联相关

• (一)列联分析的基本原理• 自变量发生变化,因变量取值是否也发生变化。

• 比较边缘百分比和条件百分比的差别。

Page 42: 第四章 基本统计分析

• 卡方测量用来考察两变量是否独立 (无关 ) 。 其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积

jiij PPP .. 当检验的相伴概率 P 小于 a ,拒绝原假设,说明行列变量存在关联。注意:原假设为行列变量无关。

Page 43: 第四章 基本统计分析

• 在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘的概率乘积。反之,则两变量有关,或称两变量不独立。

Page 44: 第四章 基本统计分析

由此可见,期望值与观察值的差距越大,说明两变量越不独立,也就越有相关。因此,卡方的表达式如下:

卡方的取值在 0~∞之间。卡方值越大,关联性越强。在 SPSS 中,有 Pearson X2 和相似比卡方( Likelihood Ratio X2 )两种。

j i ij

ijij

E

EOX

22 )(

Page 45: 第四章 基本统计分析

的改进标准化系数:为使 值有一固定的区间,便于比较,采用了以下几个修正:

2X2X

A、 φ系数( Phi ): (0~1) ,适用于 2×2 表。B 、 列联系数( Contingency Coefficient ): (0~1) ,适用任意表。C 、 Cramer V系数: (0~1) ,适用任意表。D、 λ系数 (Lambda) : (0~1) ,适用任意表。E 、 Goodman & Kruskal-tau系数 : (0~1) ,适用任意表。

Page 46: 第四章 基本统计分析

(二)列联表分析的功能调用列联表分析过程可进行定类与定序资料列联表

分析,一个行变量 (row) 和一个列变量 (column) 可组成一个二维列联表,如再加一个控制变量则可组成一个三维列联表。而多个行、列、控制变量就可组成一个复杂的多维列联表。

在分析中可对二维和多维列联表资料进行统计描述和 x2 检验,并计算相应的百分数指标。此外,还可计算四格表确切概率( Fisher’s Exact Test ),且有单双侧( One-Tail、 Two-Tail )、对数拟然比检验( Likelihood Ratio )以及线性关系的Mantel-Haenszel x2 检验。

Page 47: 第四章 基本统计分析

列联表的格式ÐÔ±ð * ÎÄ»¯³Ì¶È Crosstabulation

71 163 202 194 630

11.3% 25.9% 32.1% 30.8% 100.0%

39.2% 53.1% 51.4% 52.4% 50.4%

5.7% 13.0% 16.1% 15.5% 50.4%

110 144 191 176 621

17.7% 23.2% 30.8% 28.3% 100.0%

60.8% 46.9% 48.6% 47.6% 49.6%

8.8% 11.5% 15.3% 14.1% 49.6%

181 307 393 370 1251

14.5% 24.5% 31.4% 29.6% 100.0%

100.0% 100.0% 100.0% 100.0% 100.0%

14.5% 24.5% 31.4% 29.6% 100.0%

Count

% within ÐÔ±ð

% within ÎÄ»¯³Ì¶È

% of Total

Count

% within ÐÔ±ð

% within ÎÄ»¯³Ì¶È

% of Total

Count

% within ÐÔ±ð

% within ÎÄ»¯³Ì¶È

% of Total

ÄÐ

Å®

Total

¸ßСÒÔÏ ³õÖиßÖÐÖÐר»ò

Öм¼ ´óרÒÔÉÏ

ÎÄ»¯³Ì¶È

Total

列变量 x行变量 y

Page 48: 第四章 基本统计分析

(三)列联表分析过程

列联表分析步骤:

按 AnalyzeDescriptive Statistics Crosstabs 顺序打开 Crosstabs 主对话框。

Page 49: 第四章 基本统计分析

Crosstabs 对话框

Page 50: 第四章 基本统计分析

Statistics 对话框

医学分析中用

定类与定类 定序与定序

一定类,一定距

均定距或均定序

定类与定类 定序与定序定序与定序定序与定序

一定类,一定距

Page 51: 第四章 基本统计分析

Cell Display 对话框

Page 52: 第四章 基本统计分析

Table Format 对话框

决定各行的排列顺序:

升序

降序

Page 53: 第四章 基本统计分析

(四)例 1 为了探讨吸烟与慢性支气管炎有无关系,调查了 339 人,情况如下:

吸烟和慢性支气管炎调查表患慢性支气管炎 未患慢性支气管炎

吸烟 43 162

不吸烟 13 121

Page 54: 第四章 基本统计分析

录入数据“ Crosstab.sav” 。变量 h 为频次;变量 x为是否吸烟: 1 为吸烟, 2 为不吸烟;变量 n 为是否患病: 1 为患病, 2 为不患病。选择变量 h 进行加权。按 Analyze--Descriptive Statistics--Crootabs 顺序打开 Crootabs 主对话框。将 x 变量 选入 Row 框作为行变量,将 n 变量 选入 Column 框作为列变量。打开 Statistics 对话框,选中 Chi-square\Contingency coefficient和 Phi and Cramer’sV 复选框,单击 Continue 返回。单击 Cell 按钮,打开 Cell display 对话框,选中observed和 Expected 复选框,单击 Continue 返回;单击 OK 。

1. 操作步骤

Page 55: 第四章 基本统计分析

统计摘要表,列出观测量有效值个数、缺失值个数和总的个数。

2. 输出结果及分析

Case Processing Summary

339 100.0% 0 .0% 339 100.0% * 是否吸烟 是否患病N Percent N Percent N Percent

Valid Missing TotalCases

吸烟与患病统计摘要表

Page 56: 第四章 基本统计分析

* Crosstabulation是否吸烟 是否患病

43 162 20533.9 171.1 205.0

13 121 13422.1 111.9 134.0

56 283 33956.0 283.0 339.0

CountExpected CountCountExpected CountCountExpected Count

吸烟

不吸烟

是否吸烟

Total

患病 不患病是否患病

Total

吸烟与患病列联表

Page 57: 第四章 基本统计分析

Chi-Square Tests

7.469b 1 .0066.674 1 .0107.925 1 .005

.007 .004

7.447 1 .006

339

Pearson Chi-SquareContinuity Correctiona

Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases

Value dfAsymp. Sig.

(2-sided)Exact Sig.(2-sided)

Exact Sig.(1-sided)

Computed only for a 2x2 tablea. 0 cells (.0%) have expected count less than 5. The minimum expected count is22.14.

b.

卡方检验

Page 58: 第四章 基本统计分析

Symmetric Measures

.148 .006

.148 .006

.147 .006339

PhiCramer's VContingency Coefficient

Nominal byNominal

N of Valid Cases

Value Approx. Sig.

Not assuming the null hypothesis.a. Using the asymptotic standard error assuming the nullhypothesis.

b.

对称性检验表

Page 59: 第四章 基本统计分析

例 2:以 SPSS 自带的数据文件” 1991 U. S. General Social

Survey.sav” 为例分析影响幸福的因素。

Page 60: 第四章 基本统计分析
Page 61: 第四章 基本统计分析
Page 62: 第四章 基本统计分析
Page 63: 第四章 基本统计分析
Page 64: 第四章 基本统计分析
Page 65: 第四章 基本统计分析
Page 66: 第四章 基本统计分析

卡方检验

7.129a 2 .028

7.334 2 .026

2.497 1 .114

1256

1.107b 2 .575

1.088 2 .580

.656 1 .418

201

1.713c 2 .425

1.705 2 .426

1.427 1 .232

47

Pearson 卡方似然比线性和线性组合

N有效案例中的Pearson 卡方似然比线性和线性组合

N有效案例中的Pearson 卡方似然比线性和线性组合

N有效案例中的

被调查者的种族白种人

黑种人

其他

值 df Sig.渐进

( )双侧

0 (.0%) 5 50.58单元格 的期望计数少于 。最小期望计数为 。a.

0 (.0%) 5 13.58单元格 的期望计数少于 。最小期望计数为 。b.

1 (16.7%) 5 3.83单元格 的期望计数少于 。最小期望计数为 。c.

Page 67: 第四章 基本统计分析

对称度量

.075 .028

1256

.074 .575

201

.188 .425

47

相依系数按标量标定 N有效案例中的

相依系数按标量标定 N有效案例中的

相依系数按标量标定 N有效案例中的

被调查者的种族白种人

黑种人

其他

值 Sig.近似值

不假定零假设。a.

使用渐进标准误差假定零假设。b.

Page 68: 第四章 基本统计分析

* 基本幸福 生活激动人心还是黯淡乏味 交叉制表

195 98 2 295

44.9% 19.7% 5.0% 30.4%

218 338 12 568

50.2% 68.0% 30.0% 58.5%

21 61 26 108

4.8% 12.3% 65.0% 11.1%

434 497 40 971

100.0% 100.0% 100.0% 100.0%

计数生活激动人心还

%是黯淡乏味 的计数生活激动人心还

%是黯淡乏味 的计数生活激动人心还

%是黯淡乏味 的计数生活激动人心还

%是黯淡乏味 的

非常幸福

很幸福

不太幸福

基本幸福

合计

激动人心 平淡无奇 黯淡无味生活激动人心还是黯淡乏味

合计

Page 69: 第四章 基本统计分析

卡方检验

196.023a 4 .000

148.923 4 .000

125.487 1 .000

971

Pearson 卡方似然比线性和线性组合

N有效案例中的

值 df Sig.渐进

( )双侧

1 (11.1%) 5单元格 的期望计数少于 。最小期望 4.45计数为 。

a.

Page 70: 第四章 基本统计分析

六、多选项分析

• (一)多选项问题的分解方法:• 1 、多选项二分法(每个答案设一个变

量,变量值只有 0、 1 )• 2 、多选项分类法(变量个数为最多可

能出现的答案数,变量取值为 1~K, K为可选答案的个数)

Page 71: 第四章 基本统计分析

• (二)定义多项选择变量集• Analyze—Multiple Response—Define Sets.• (三)多选项频数分析操作• Analyze—Multiple Response Frequencies• (四)多选项交叉分组下的频数分析操作• Analyze—Multiple Response--Crosstabs

Page 72: 第四章 基本统计分析

多选项分析应用举例• 例 1 :储蓄目的分析。• 简单频数分析与多选项频数分析的结合• 一张表与一张表的结合。

• 例 2 :不同年龄段储蓄目的分析。

Page 73: 第四章 基本统计分析

七、比率分析

• 用于对两个变量间比值变化的描述分析,适用于定距变量 .

• 基本统计量:均值、中位数、标准差、全距等.

• 集中趋势描述:加权比率均值(分子分母的均值之比)。

Page 74: 第四章 基本统计分析

• 离散程度描述:• AAD (平均绝对离差)

• COD (离散系数)

为中位数MN

MRAAD i ,

为中位数。MMN

RR

COD

i

,

Page 75: 第四章 基本统计分析

• COV (变异系数)

• 步骤: Analyze—Descriptive Statistics—Ratio

为中位数或者均值。M

MN

MR

COD ,

2i

Page 76: 第四章 基本统计分析

上机作业

• 1. 自己学习报告分析的各项命令。• 2.熟练掌握频次分析、描述性统计分析

和探索分析的基本功能和运用技巧。• 3.完成上机练习 4 ,写作第一个统计分

析报告。