-20, 30, 40대의연령에따라스트레스의정도는차이가있는가?...

18
분산분석(ANOVA) - 1/18 Copyright 2001 StatEdu Consulting ANOVA 개념 One-Way ANOVA 잔차의 정규성, 등분산성 인자의 영향력 사후검정 Kruskal-Wallis Test

Upload: others

Post on 26-Sep-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

분산분석(ANOVA) - 1/18Copyright ⓒ 2001 StatEdu Consulting

ANOVA개념

One-Way ANOVA

잔차의 정규성, 등분산성

인자의 영향력

사후검정

Kruskal-Wallis Test

분산분석(ANOVA) - 2/18Copyright ⓒ 2001 StatEdu Consulting

2 이상 Group의 평균의 차이를 비교하는 분석(일반적으로 3 이상)

- 20, 30, 40대의 연령에 따라 스트레스의 정도는 차이가 있는가?

- 소나타, 옵티마, 레간자 중 연비가 가장 좋은 차는?

- 서로 다른 4가지 교육방법에 따라 업무효율은 차이가 있는가?

비모수 : Kruskal-Wallis Test

독립 변수(인자)가 2수준 이상일 때 평균비교(일반적으로 3수준 이상)

기본 가정 : Data : 정규성, 등분산성 → 실제적으로 확인이 어렵다

잔 차 : 정규성, 등분산성 → 모형의 적합성을 판별할 수 있다.

가설 : H0 : (독립변수에 따라 종속변수는 같다)

H1 : 적어도 하나는 다르다. (독립변수에 따라 종속변수는 다르다)

종속변수 : 등비

독립변수 : 명목 or 서열(수준 3 이상)

One-Way ANOVA

nµµµ === L21

분산분석(ANOVA) - 3/18Copyright ⓒ 2001 StatEdu Consulting

분산 분석표

n-1SST계 (T)

MSR/MSEMSR = SSR/(k-1)

MSE = SSE/(n-k)

k-1

n-k

SSR

SSE

인자(R)

오차(E)

F평균 제곱 (MS)자유도(d.f)제곱 합 (SS)

n : Data의 총수

k : 독립변수의 수준

SST

SSE

독립변수 외 나머지가차지하는 비중

SSR

독립변수가차지하는 비중

= +

SSTSSRR2 =

독립변수의 종속변수에

대한 설명률

회귀분석의 결정계수

독립변수가 종속변수를 설명할 수 있는 량 : SSR

독립변수 이외의 원인이 종속변수를 설명할 수 있는 량 : SSE

분산분석(ANOVA) - 4/18Copyright ⓒ 2001 StatEdu Consulting

Yes No정규성

등분산성

One-Way ANOVA

NoYes

Kruskal-Wallis Test

분산분석(ANOVA) - 5/18Copyright ⓒ 2001 StatEdu Consulting

자동차의 종류에 따라 연비가 서로 다른지를 알기 동급의 자동차 4 종류에 대

해 1ℓ 당 주행거리(km)를 측정하였다. 자동차에 따라 연비가 서로 다르다고 할

수 있는가?

11.7 11.4 12.1 11.6소나타

13.2 13.6 12.9 14.0 13.3엘란트라

14.1 13.4 13.8 13.5세피아

12.3 11.9 12.4 11.8 11.6프린스

독립변수의 수준을 분석의 편의를위해 1,2,3,4로 입력한다.

종속변수 : 연비 : 등비

독립변수 : 자동차의 종류 : 명목(수준 4)

분석 방법 : 일원배치 분산분석 or Kruskal-Wallis 검정

분석 순서 : 정규성 → 등분산성 → 최종 분석 방법 결정

분산분석(ANOVA) - 6/18Copyright ⓒ 2001 StatEdu Consulting

ANOVA의 기본 가정 (Data의 정규성 검정)

정규성 검정

.250 4 .

.194 5 .200 .969 5 .820

.216 5 .200 .877 5 .334

.236 4 .

자동차소나타

엘란트라

프린스

세피아

연비통계량 자유도 유의확률 통계량 자유도 유의확률

Kolmogorov-Smirnov Shapiro-Wilk

엘란트라, 프린스

P > 0.05 → H0

정규성 만족SPSS 에서는 Data의 수가 5개 이상이면

정규성 검정을 할 수 있다.

Data 수가 4개 이하이면 검정을 할 수 없다.

종속(등비) 독립(서열, 수준4)이고 정규성 ⇒ 일원배치 분산분석

분산분석(ANOVA) - 7/18Copyright ⓒ 2001 StatEdu Consulting

일원배치 분산분석 (One-Way ANOVA)

분석 → 평균비교 → 일원배치 분산분석

H0 : (자동차에 따라 연비는 같다)n

H1 : 적어도 하나는 다르다 (자동차에 따라 연비는 다르다)

µµµ === L21

종속변수 : 연비

독립변수 : 자동차

기술통계 : 평균, 표준편차 등을 출력

분산의 동질성 : Data의 등분산성 검정

분산분석(ANOVA) - 8/18Copyright ⓒ 2001 StatEdu Consulting

일원배치 분산분석 (One-Way ANOVA) – 결 과

연비

4 11.700 .294 .147 11.232 12.168 11.4 12.1

5 13.400 .418 .187 12.881 13.919 12.9 14.0

5 12.000 .339 .152 11.579 12.421 11.6 12.4

4 13.700 .316 .158 13.197 14.203 13.4 14.1

18 12.700 .927 .219 12.239 13.161 11.4 14.1

소나타

엘란트라

프린스

세피아

합계

N 평균 표준편차 표준오차 하한값 상한값

평균에 대한 95% 신뢰구간

최소값 최대값

분산의 동질성에 대한 검정

연비

.391 3 14 .761

Levene 통계량 자유도1 자유도2 유의확률

연비

12.900 3 4.300 35.000 .000

1.720 14 .123

14.620 17

집단-간

집단-내

합계

제곱합 자유도 평균제곱 F 유의확률

분산분석의 기본가정

P > 0.05 → H0

등분산성 만족

P = 0.000 < 0.05 → H1

자동차에 따라 연비는

통계적으로 차이가 있다.

이 결과를 신뢰할 수 있는가?

잔차 분석

결론 p < 0.05

소나타 : 11.7 0.29 →H1엘란트라 : 13.4 0.42프린스 : 12.0 0.34세피아 : 12.7 0.32

통계적으로 차이가 있다.

이 경우 세피아의 연비가 가장 좋다.

실제로 ?

사후검정

88.2%

기술통계

분산분석

분산분석(ANOVA) - 9/18Copyright ⓒ 2001 StatEdu Consulting

사 후 분 석 1

P < 0.05 일 경우 어느 수준에서 차이가 있

는가? ANOVA에서는 차이가 있다 없다 만

판별할 뿐 그 이상은 알지 못하는 한계가 있

다. 이때 사용되는 것이 사후분석(다중비교

라고도 함)이다.

사후분석은 독립변수 수준 사이에서의 평균

의 차이를 알고자 할 때 쓰이는 기법이다.

SPSS에서 가장 많이 사용되는

다중비교 방법은 Tukey,

Duncan, Scheffe 의 방법이다.

분산분석(ANOVA) - 10/18Copyright ⓒ 2001 StatEdu Consulting

다 중 비 교 2

연비표기 방법

1. 부등호 이용

세피아,엘란트라 > 프린스,소나타

2. 기호를 이용한 방법

소나타 A

엘란트라 B프린스 A

세피아 B

* 같은 문자는 통계적인 차이가 없다.

Tukey HSDa,b

4 11.700

5 12.000

5 13.4004 13.700

.592 .592

자동차

소나타

프린스

엘란트라세피아

유의확률

N 1 2

유의수준 = .05에 대한부집단

이 값들은

평균을

의미한다.1 집단 : 소나타, 프린스

2 집단 : 엘란트라, 세피아

2 집단 > 1 집단

엘란트라, 세피아의 연비가

소나타, 프린스의 연비보다

더 좋다.

다중비교 결과의 해석

1. 부집단을 구별한다.

2. 부집단에 속한 독립변수의 수준을 확인한다.

3. 같은 집단에 있는 수준은 통계적인 차이가 없다.

4. 서로 다른 집단에 있는 수준은 차이가 있다.

분산분석(ANOVA) - 11/18Copyright ⓒ 2001 StatEdu Consulting

결 과 정 리

±±±±

엘란트라, 세피아의 연비가 소나타, 프린스의 연비보다 더 좋다.

소나타 : 11.7 0.29 P = 0.000 < 0.05

엘란트라 : 13.4 0.42 → H1프린스 : 12.0 0.34세피아 : 12.7 0.32

자동차에 따라 연비는 통계적으로 차이가 있다.

종속(등비) 독립(서열, 수준4)이고 Data의 정규성, 등분산성 만족

⇒ 일원배치 분산분석(One-Way ANOVA)

Data의 정규성, 등분산성 만족

종속변수 : 연비 : 등비

독립변수 : 자동차의 종류 : 명목(수준 4)

자동차의 종류에 따라 연비가 서로 다른지를 알기 동급의 자동차 4 종류에 대해

1ℓ 당 주행거리(km)를 측정하였다. 자동차에 따라 연비가 서로 다르다고 할 수

있는가?

분산분석(ANOVA) - 12/18Copyright ⓒ 2001 StatEdu Consulting

예제 1의 자료에서 정규성을 만족하지 못했다면 어떻게 분석해야 하는가?

자동차에 따라 연비가 서로 다르다고 할 수 있는가?

11.7 11.4 12.1 11.6소나타

13.2 13.6 12.9 14.0 13.3엘란트라

14.1 13.4 13.8 13.5세피아

12.3 11.9 12.4 11.8 11.6프린스

비모수 검정에서는 분석에 대한 기본

가정이 없으므로, 바로 분석을 하면 된다

종속변수 : 연비 : 등비

독립변수 : 자동차의 종류 : 명목(수준 4)

분석 방법 : Kruskal-Wallis 검정

Kruskal-Wallis Test(비모수 검정)에서는

사후 검정이 안 된다

분산분석(ANOVA) - 13/18Copyright ⓒ 2001 StatEdu Consulting

Kruskal-Wallis 검정 (비모수 검정)

분석 → 비모수 검정 → 독립 K-표본(K)

검정 통계량a,b

13.676

3

.003

카이제곱

자유도

근사 유의확률

연비

Kruskal Wallis 검정a.

집단변수: 자동차b.

순위

4 3.63

5 13.00

5 6.10

4 15.25

18

자동차소나타

엘란트라

프린스

세피아

합계

연비N 평균순위

분석 방법을 선택

일반적으로 K-W 검정을

많이 사용

P = 0.003 < 0.05 → H1자동차에 따라 연비는

통계적으로 차이가 있다.

종속변수 : 연비

독립변수 : 자동차

분산분석(ANOVA) - 14/18Copyright ⓒ 2001 StatEdu Consulting

결 과 정 리

±±±±

엘란트라, 세피아의 연비가 소나타, 프린스의 연비보다 더 좋다.

소나타 : 11.7 0.29 P = 0.003 < 0.05

엘란트라 : 13.4 0.42 → H1프린스 : 12.0 0.34세피아 : 12.7 0.32

자동차에 따라 연비는 통계적으로 차이가 있다.

종속(등비) 독립(서열, 수준4)이고 Data의 정규성 만족 못함

⇒ Kruskal-Wallis 검정(비모수 검정 )

Data의 정규성 만족 못함

종속변수 : 연비 : 등비

독립변수 : 자동차의 종류 : 명목(수준 4)

자동차의 종류에 따라 연비가 서로 다른지를 알기 동급의 자동차 4 종류에 대해

1ℓ 당 주행거리(km)를 측정하였다. 자동차에 따라 연비가 서로 다르다고 할 수

있는가?

분산분석(ANOVA) - 15/18Copyright ⓒ 2001 StatEdu Consulting

과 정 정 리 1

One-Way ANOVA : 2 이상의 Group(집단)간의 평균의 차이를 비교하는 분석

- 기본 가정 : 정규성, 등분산성

정규성을 만족하면 : One-Way ANOVA

만족하지 않으면 : 비모수 통계 검정

잔차의 정규성, 등분산성 : 모형의 적합성을 검정

정규성이나, 등분산을 만족하지 못하면 : Data(이상값)를 확인한다.

- 가 설 : H0 : 독립변수(인자)에 따라 종속변수(특성값)는 같다

H1 : 독립변수(인자)에 따라 종속변수(특성값)는 다르다

- 인자의 영향력 : 결정계수(R2) - 회귀분석에서 다시 설명

- 사후 검정 : P < 0.05 일 경우 어느 수준끼리 차이가 있는가? (Tukey’s Comparison)

SSTSSRR2 =

분산분석(ANOVA) - 16/18Copyright ⓒ 2001 StatEdu Consulting

과 정 정 리 2

분석 순서 :

1. Data의 특성을 파악한다.

종속, 독립 변수 : 명목, 서열, 등비 중 어느 것인가?

2. 정규성 검정을 한다.

일원배치 분산분석 or Kruskal-Wallis 검정

3. 잔차의 정규성, 등분산 검정을 한다.

ANOVA 모형의 적합성을 판별한다.

4. 분석을 한다.

1, 2, 3 단계에서 얻어진 결론으로 최종 분석 방법을 선택하고 분석한다.

5. 사후 검정을 한다.

4단계에서 얻어진 P 값을 보고 0.05보다 작으면 실시한다.

6. 결과를 해석한다.

평균과 표준편차를 정리하고

결과로 얻어진 P 값을 보고 2개의 가설 중 하나를 선택한다.

사후 검정을 했으면 부등호로서 수준끼리의 차이를 정리한다.

7. 결론을 내린다.

분산분석(ANOVA) - 17/18Copyright ⓒ 2001 StatEdu Consulting

40대의 남성들이 스트레스가 높은 것으로 밝혀져 스트레스를 줄이기 위한 일

환으로 심상치료를 하였다. 15명의 40대 남성들에게 스트레스를 측정한 후 2

주간의 심상치료를 하고 다시 스트레스를 측정한 자료이다. 심상치료가 스트레

슬 낮추는데 효과가 있는가?

7.6 10.2 9.5 1.3 3.0 6.3 5.3 6.2 2.2 4.8 11.3 12.1 6.9 7.6 8.4

7.3 9.1 8.4 1.5 2.7 5.8 4.9 5.3 2.0 4.2 11.0 11.0 6.1 6.7 7.5

실험 전

실험 후

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15단위

20, 30, 40, 50, 60대의 삶의 만족도에 조사한 자료이다. 연령에 따라 삶의 만

족도는 차이가 있는가? 차이가 있다면 어떠한 차이가 있는가?

16.7

16.9

16.5

17.5

15.1

15.9

17.8

17.3

18.1

17.2

17.0

17.1

18.3

19.2

18.3

18.8

19.8

18.3

A5A4A3A2A1

분산분석(ANOVA) - 18/18Copyright ⓒ 2001 StatEdu Consulting

엔진 제어 모듈에서 쓰이는 미세한 디바이스는 리드(lead) 사이의 거리가

650micron(100만분의 1m)이다. 이 리드는 디바이스가 외부와 ‘연락’할 수 있

게 해주는 작은 선들이다. 로봇 기계는 이 디바이스를 집어서 회로판에 갖다 놓

는 역할을 한다.

조사의 일환으로 특정한 형태의 미세한 디바이스가 서로 다른 네 가지 속도로

회로판에 놓여지고 이러한 시행이 각 속도별로 16번 측정하여 한쪽 방향으로

치우침 정도의 결과값이다.

기계 속도와 치우침의 정도 사이에 관계가 있는가?

0.0639 0.0744

0.0755 0.0720

0.0595 0.0698

0.0846 0.0530

0.0533 0.0690

0.0637 0.0558

0.0673 0.0713

0.0781 0.0715

기 계 속 도

1 2 3 4

0.0808 0.0479

0.0704 0.0737

0.0632 0.0803

0.0846 0.0711

0.0741 0.0552

0.0591 0.0707

0.0500 0.0584

0.0772 0.0791

0.0476 0.0591

0.0640 0.0451

0.0511 0.0633

0.0559 0.0202

0.0785 0.0423

0.0392 0.0463

0.0469 0.0463

0.0549 0.0350

0.0737 0.0936

0.0632 0.0756

0.0784 0.0815

0.0806 0.0893

0.0912 0.0864

0.0711 0.0794

0.0915 0.0643

0.0733 0.0512