확률이론과 정규분포sigmapress.co.kr/shop/shop_image/g89705_1405663968.pdf제6장...

11
RESEARCH AND STATISTICAL METHODS 제6장 확률이론과 정규분포 Ⅰ. 이항분포 Ⅱ. 정규분포

Upload: others

Post on 03-Jan-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 확률이론과 정규분포sigmapress.co.kr/shop/shop_image/g89705_1405663968.pdf제6장 확률이론과 정규분포 149 I_이항분포 확률(probability, proportion)은 궁극적으로

R E S E A R C H A N DS T A T IS T IC A L M E T H O D S

제6장

확률이론과 정규분포

Ⅰ. 이항분포

Ⅱ. 정규분포

Page 2: 확률이론과 정규분포sigmapress.co.kr/shop/shop_image/g89705_1405663968.pdf제6장 확률이론과 정규분포 149 I_이항분포 확률(probability, proportion)은 궁극적으로
Page 3: 확률이론과 정규분포sigmapress.co.kr/shop/shop_image/g89705_1405663968.pdf제6장 확률이론과 정규분포 149 I_이항분포 확률(probability, proportion)은 궁극적으로

149제6장 확률이론과 정규분포

I _이항분포

확률(probability, proportion)은 궁극적으로 일어나게 되는 어떠한 종류의 사건들의 발생

에 대한 이론적 상대빈도를 말한다(Loether & Mctavish, 1976). 또 집단에서 무선변수들의

모든 가능한 값들과 관련된 상대적 빈도의 경향성을 확률분포(probability distribution)라

고 한다(Kleinbaum, Kupper, & Muller, 1998). 이항분포는 확률분포 중에서 2개의 원 사

건만이 존재하는 가장 간단한 분포이다(이종성, 1983).

두 가지 가능한 결과 중에서 하나만 일어날 수 있는 확률실험을 베르누이의 시행

(Bernoulli trial)이라고 하며, 이의 확률실험을 베르누이 과정이라고 한다. 이 과정은 양분

과정, 시행착오, 그리고 불변과정의 개념을 중시한다.

동전을 5회 던져서 앞면과 뒷면이 나타나는 시행과정에서 일어날 수 있는 상이한

모든 결과의 수는 이다. 이중 순서에 관계없이 앞면이 두 번 나올 경우는

의 공식에 의해 5 ! 2 ! 3 ! 〓10으로 다음과 같은 10가지의 결과가 나온다.

HHTTT

HTHTT

HTTHT

HTTTH

THTTH

THHTT

THTHT

TTHHT

TTHTH

TTTHH

이때 동전의 앞면이 나올 확률은 , 뒷면이 나올 확률을 라고 하면 위의 10가

지 결과는 각각 의 확률을 갖는다. 또한 10가지 상이한 결과는 상호배반 사건

Page 4: 확률이론과 정규분포sigmapress.co.kr/shop/shop_image/g89705_1405663968.pdf제6장 확률이론과 정규분포 149 I_이항분포 확률(probability, proportion)은 궁극적으로

150 연구와 통계방법

이므로 동전을 5회 던져서 앞면이 두 번 나올 확률은 이다

(이종성, 1983).

회 시행의 베르누이 과정에서 확률변수는 성공의 수(앞면이 나올 횟수)가 되며, 그

분포를 이항분포라고 한다. 이때 확률변수를 , 시행횟수를 , 성공의 확률을 라고 하

면 이항분포의 확률 도 함수는 다음과 같으며, 이항분포 확률의 모든 합은 1이 된다.

(공식 6.1)

X Pr(X)

5

4

3

2

1

0

합계 32/32

표 6.1 동전을 5회 던져서 앞면이 나올 수의 확률분포

이항분포의 평균은 그 분포의 모수가 되는 과 의 곱과 같다. 즉,

이며, 이항분포의 분산 은 이다. 따라서 동전을 10회 던져서 앞면

이 나올 것이라고 기대할 수 있는 수와 분산은 ,

, ,

이다. 그러나 이러한 이항분포는 수학적으로 정규분

포의 모양보다 다소 복잡한 형태를 띠게 된다.

Page 5: 확률이론과 정규분포sigmapress.co.kr/shop/shop_image/g89705_1405663968.pdf제6장 확률이론과 정규분포 149 I_이항분포 확률(probability, proportion)은 궁극적으로

151제6장 확률이론과 정규분포

II _정규분포

1. 개념

통계학자와 연구자들은 숫자를 통에 집어넣고 표본을 끌어내고, 표집분포를 개발하기보

다는 이론적 표집분포를 이용한다(수학적 정리). 이러한 수학적 정리(theorem)는 분포들

에 대한 모양(shape), 집중경향치(central tendency), 그리고 변산도(variability)에 관한 정

보를 제공한다.

모집단 혹은 전집의 평균치에 관하여 추리해야 할 경우에 평균치의 표집분포가 어떠

한 분포를 이루는지를 명확히 알아야 하며, 이러한 것에 대한 해답을 주는 것이 중심극한

정리(central limit theorem)이다(임인재, 1994). “한 전집이 일정한 평균 와 변량 을

가졌을 때 이 전집에서 사례수 의 독립적인 무선표본들로부터 얻은 평균치( )의 표집

분포는 표집의 사례수 이 증가함에 따라 평균치가 이고 변량이 /인 표집분포는

거의 정규분포를 이루게 된다(임인재, 1994, p. 176)”.

30보다 클 때에 기대치의 불편추정량을 다루기 위해 수학적 정리를 이용한다.

따라서 평균의 표집분포의 평균은 와 같으며, 표준편차(SD)도 똑같이 적용된다. 평균의

표준오차는 평균의 표집분포에 대한 표준편차이다(Hinkle et al., 1988, pp. 169-170).

정규분포는 통계학에서 기본이 되는 연속 확률분포로 표준 정규분포를 통계치의

확률분포, 누적 확률 도, Z 점수 분포라고 부르기도 한다. 정규분포는 모분포(parent

distribution)라고도 하는 이상적인 수학적 모형이다. 복잡한 이항 확률분포의 모형보다

정규분포가 수리적으로 취급하기에 간편하며, 정규분포의 확률 도 함수는 다음과 같이

표현된다.

∞ ∞

이때 분포의 평균, 분포의 표준편차, 2.72(자연대수의 밑), 3.14(원주율)

이다.

Page 6: 확률이론과 정규분포sigmapress.co.kr/shop/shop_image/g89705_1405663968.pdf제6장 확률이론과 정규분포 149 I_이항분포 확률(probability, proportion)은 궁극적으로

152 연구와 통계방법

정규분포를 관찰하여 얻은 자료를 이용하여 빈도분포 다각형을 그려보면, 그 숫자

( )가 커짐에 따라 좌우 대칭인 매끈한 곡선으로 가까워지는 것이 많다. 이와 같은 곡선

중에서 평균이 이고 분산이 인 곡선을 정규분포 곡선이라고 한다. 정규분포의 확률

을 이용하기에 편리하도록 계산해놓은 수표가 부록 <표 2>이다. 정규분포의 특성은 다음

과 같다.

① 에서 최대값, 를 중심으로 좌우대칭이고 단일 최빈치(unimodal)를 갖

는 종 모양의 분포이다.

② 의 값이 증가함에 따라 0에 접근한다.

③ 확률 도는 음이 될 수 없으며, 정규분포 곡선과 X축 사이의 면적은 1이 된다.

이 경우 0, 1일 때를 특별히 표준 정규분포(standard normal distribution)라

고 하고 확률변수를 로 표시한다. 이 표준 정규분포가 통계이론에서 많이 쓰이는 것은

중심극한정리(central limit theorem)가 발견되었기 때문이다.

표준 정규확률 변수

이고, 그 도함수

가 된다. 따라

서 모집단의 분포가 정규분포를 이룬다고 가정할 수 없는 경우에도 모집단의 분포에 관

계없이 표본평균의 임의 표집분포는 표본의 크기 N을 증가시킴에 따라 평균은 이

고 표준편차는 인 정규분포에 접근하는데 이 원리를 중심극한정리라고 한

다(이종성, 1983). 대수의 법칙(law of large number)에서도 표본의 수를 크게 하면 크게

할수록 모수의 추정치는 모수에 접근하며, 다음의 공식과 같이 표본의 수를 무한대로 하

면 모수의 추정치가 모수에 극히 작은 수 ε을 더하고 뺀 범위에 들어있을 확률이 1이다.

lim→∞

ɛ ɛ (공식 6.2)

확률이론에서는 모집단에 관한 모든 정보를 알고 있어야 하지만 통계학에서는 모집

단에 관해서 모든 것을 알지 못하고 표본정보만을 알고 있다. 통계적 추리방법은 모집단

의 모수를 추정하는 방법과 모집단의 모수에 관한 가설을 검정하는 방법으로 구분되며,

Page 7: 확률이론과 정규분포sigmapress.co.kr/shop/shop_image/g89705_1405663968.pdf제6장 확률이론과 정규분포 149 I_이항분포 확률(probability, proportion)은 궁극적으로

153제6장 확률이론과 정규분포

추정은 점추정(point estimation)과 구간추정(interval estimation)으로 나뉜다.

이 책에서 통계적 가설검정을 위해 사용되는 주된 방법은 점추정이다. 점추정은 모

집단 값에서 추정되는 최상의 단일 값이다. 만약 모집단의 평균치()를 추정한다면, 표

본평균치( )는 최상의 추정점이다. 표본평균이 모집단 평균뿐만 아니라, 표집오차도 반

영한다는 것을 생각할 때 표본평균이 정확하게 모집단 평균과 동일하다는 것을 기대하기

어렵다. 표본평균은 표집오차의 범위 내에서 모집단 평균을 나타낸 것이므로 모집단 평

균을 포함하는 값이 95% 범위 내에서 정확하다고 볼 수 있고 이 값의 범위가 신뢰구간

이다.

표본의 평균이 모집단의 평균과 일치하는 경우는 거의 불가능하고(표집오차로 인

해), 따라서 표본의 평균치를 가지고 모집단의 평균치를 한 점의 수치로 추정하는 것은

위험성이 있다. 즉, 단일의 수(통계치)로써 모수를 추정하는 방법을 점추정이라고 하며,

모수의 참 값과 그 점의 추정량이 제공하는 점추정의 값과는 일치하는 경우가 거의 없기

때문에 모수가 포함되리라고 예측되는 구간을 추정하여 점추정을 대신할 수 있고 이를

구간추정이라고 한다.

이 구간이 모수를 포함시킬 확률을 신뢰수준(confidence level)이라고 부르고 이 구

간의 범위를 신뢰구간(confidence interval: CI)이라고 부른다. 또한 구간의 양 끝 점을 신

뢰한계(confidence limits)라고 한다. 양측 검정의 방식으로 모집단 평균 의 95% 신뢰구

간은 ±1.96이다.

예를 들면, 36, 25, 90일 때, 신뢰구간은 90±6으로 84~96이 된다. 따

라서 모집단 평균 가 84에서 96 사이에 있을 확률은 95%가 아니라 거꾸로 모집단 평균

의 95% 신뢰구간은 84에서 96이라는 표현도 가능하다. 이 확률이 작을수록 신뢰구간

은 좁아지며, 이 외에도 신뢰구간을 좁히는 방법은 사례수를 크게 하는 방법과 분산()

을 작게 하는 방법이 있다. 신뢰구간이 작을수록 더 좋은 추정치를 얻을 수 있는 것이다.

표본크기의 증가에 의해 신뢰구간은 좁혀지고 표준오차를 작게 하여 통계적 정 도를

증가시킬 수 있다.

표본의 신뢰한계는 ±로 계산되어 이 구간에 값이 포함될 확률이 이다.

예를 들면, 95% 신뢰한계치는 ≤ ≤로 구할 수 있으며, 이 경우

Page 8: 확률이론과 정규분포sigmapress.co.kr/shop/shop_image/g89705_1405663968.pdf제6장 확률이론과 정규분포 149 I_이항분포 확률(probability, proportion)은 궁극적으로

154 연구와 통계방법

가 5라고 한다면 3.04에서 6.96 사이에 가 포함될 확률은 95%이다.

앞서 말한 것처럼 에 대한 신뢰구간의 범위는 의 표준오차에 달려있기 때문에

표본의 크기를 크게 하면 표준오차는 작아지고 상대적으로 신뢰구간은 좁아져서 좀더

정 한 수치를 얻을 수 있다. 이러한 이유는 아래의 공식에서 볼 수 있는 것처럼 분자의

크기가 고정되어 있을 때 분모(N)의 크기를 크게 할수록 편차점수와 그 값은 더욱 적어

지는 경향에서 확인된다.

(공식 6.3)

(공식 6.4)

예를 들면, 심리학자들이 400명의 여성들을 상대로 그들의 감성 스트레스목록을 조

사한 결과 그 정도가 평균 44.6(분산〓100)이라는 것을 알아냈다고 가정하고 이것을

95% 신뢰구간으로 계산해보면 다음과 같다. 따라서 심리학자들은 모집단 평균 를 포함

하는 95% 신뢰구간이 43.62에서 45.58까지라고 생각할 수 있다.

± (공식 6.5)

에 따라, ± ± ± 이 되기 때

문에 각각 의 두 값을 얻을 수 있다.

2. 분포의 모양

첨도(kurtosis)는 점수분포가 어느 정도로 뾰족하게 솟아나있는지를 표시하는 것으로서,

SPSS나 SAS와 같은 컴퓨터 통계패키지의 출력물은 분포가 정규분포일 때에 0의 값을 나

타내준다. 이 값이 0보다 클 때( 0)는 정규분포보다 뾰쪽한 모양을 나타내고, 0보다

작을 때( 0)는 평평한 모양을 나타내게 된다. 첨도의 값이 각각 -0.731, -0.705일 때,

이들 분포는 정규분포보다 약간 더 평평한 모양을 보일 것이다.

반면, 왜도(skewness)는 어떤 분포가 정규분포에서의 대칭성을 어느 정도 만족시키

Page 9: 확률이론과 정규분포sigmapress.co.kr/shop/shop_image/g89705_1405663968.pdf제6장 확률이론과 정규분포 149 I_이항분포 확률(probability, proportion)은 궁극적으로

155제6장 확률이론과 정규분포

는지를 나타내는데, 이 역시 정규분포일 때 0의 값을 갖는다. 편포가 0보다 크다( 0)

는 것은 다수의 값이 평균보다 낮은 곳에 집중되고, 극소수의 값들이 평균보다 높은 곳에

위치하고 있어 우항 편포 혹은 정적 편포를 이룬다.

만약 이 집단의 모양이 각각 정규분포를 따른다면 T 검정을 이용하여 두 모평균이

같다는 가설을 검정할 수 있을 것이다. 그러나 이러한 분포가 정규분포가 아니고 또 표본

의 크기가 작으면 분포에 대한 기본가정을 필요로 하지 않는 통계적 기법을 이용해야

한다.

모수적(parametric) 방법은 관측치가 어느 특정한 확률분포(이를테면 정규분포, 이항

분포 등)를 따른다고 전제를 한 후 그 분포의 모수(parameter)에 대한 검정을 실시하는

방법이며, 비모수적(non-parametric) 방법은 관측치가 어느 특정한 확률분포를 따른다고

전제할 수 없는 경우에 실시하는 검정방법으로, 모수에 대한 언급이 없으며 분포 무관

(distribution free) 방법이라고 하기도 한다.

비모수적 방법의 특징은 첫째, 최소한의 가정을 전제로 하므로 가정이 만족하지 않

음으로써 발생하는 오류를 줄일 수 있다는 점이며, 둘째, 대부분의 경우 관측된 값보다는

상대적 순위를 이용하여 검정통계량을 유도하므로 서열 척도로 관측된 자료의 검정에

유용하다는 점이며, 셋째, 계산과정이 단순하고 쉽게 통계적 의미를 이해할 수 있으므로

통계에 대한 깊은 지식을 필요로 하지 않는다는 점을 들 수 있다.

3. Z 표준점수

Z 표준점수를 설명하기 위해서는 먼저 Z 분포의 모양을 이해해야 한다. Z 분포는 표준

정규분포의 원리 아래 수학적으로 계산된 표준점수들을 좌표 상에 뿌렸을 때 좌우 대칭

형의 매끈한 분포곡선으로 나타난다. <그림 6.1>과 같이 일정한 면적비를 지니는 이 분

포곡선은 부록의 <표 2>에서처럼 평균이 영(0)이 되고 표준편차는 1이 되며, 일정한 높

이, 길이, 면적비를 가지게 된다. 즉, 부록의 <표 2> 상에서 A는 원점수의 개별 Z 점수가

되며, B는 평균 0과 Z 점수 사이의 확률 혹은 면적이 된다. 반면, C는 분포의 면적 절반

에 있어서 A값을 뺀 나머지 점수가 된다. 이때 면적은 확률의 개념과 동일한 다른 표현

방식에 불과하다.

Page 10: 확률이론과 정규분포sigmapress.co.kr/shop/shop_image/g89705_1405663968.pdf제6장 확률이론과 정규분포 149 I_이항분포 확률(probability, proportion)은 궁극적으로

156 연구와 통계방법

정규분포 우측(정적) 편포 좌측(부적) 편포

X

C50

Mc

Mc C50 X X C50 Mc

C50

X

C50 X X C50

.50

.50.50

그림 6.1 집중경향치와 분포의 모양

정규분포에서 언급한 것과 같이 표준점수는 표준 정규분포로 통계학에서 기본이 되

는 연속 확률분포이다. 척도의 크기가 각기 다른 원점수 상호 간의 직접 비교는 의미가

없다. 따라서 평균 와 표준편차 에 의해 수학적으로 결정되는 표준점수는 수리적으로

매우 유용하게 활용된다. 정규분포 곡선의 모양과 위치는 와 에 의해서 결정되는데,

표준 정규분포는 특히 가 0이고 가 1의 모양을 갖는다.

즉, 이러한 정규분포의 확률을 계산하기 위해 공식을 사용하는 것은 복잡할 뿐만 아

니라 와 의 값에 따라 그 계산결과가 달라진다. 따라서 모든 정규분포에 적용할 수

있는 표준 정규확률 변수를 고려하여 확률변수 X를 0이고 1인 표준 정규확률 변

수값으로 전환해준 것이다. 부록의 <표 2>에서 보여주는 점수들은 정규분포 곡선이 대칭

형이기 때문에 분포의 우측, 즉 양의 Z값들만 표현되었다. 표준점수들은 여러 가지 형태

가 있지만 그 나름대로의 장단점을 지닌다.

Page 11: 확률이론과 정규분포sigmapress.co.kr/shop/shop_image/g89705_1405663968.pdf제6장 확률이론과 정규분포 149 I_이항분포 확률(probability, proportion)은 궁극적으로

157제6장 확률이론과 정규분포

34.13%13.59%2.14% 34.13% 13.59% 2.14%

0.13%0.13%

0-2 +1-1 +2 +3-3

표준편차

그림 6.2 Z 표준점수의 분포

백분위 순위에 있어서의 문제는 순위 사이의 비교가 어렵다는 것이다. 왜냐하면 원

점수의 어떤 숫자에 대한 차이는 척도에 있어서 다른 위치에서는 다른 의미를 지닌다.

반면, 표준점수로는 척도에 있어서의 10점 차이는 어디에서든지 똑같은 의미를 지닌다.

표준점수는 표준편차에 근거한다. 가장 일반적인 표준점수(Z score)의 원점수가 평균에

서 얼마나 많은 표준편차를 가지고 있는지 나타내준다. 다음은 원점수에 대해 Z 표준점

수를 구하는 공식이다.

(공식 6.6)

<그림 6.1>처럼 왜도(혹은 편포도, skewness)는 분포의 치우친 정도를 나타내며, 첨

도(kurtosis)는 분포가 얼마나 뾰족한지와 꼬리가 두터운지를 나타내는 것이다.

표준편차가 같은 상태에서 평균통계량의 차이는 중심위치만 다른 뿐 곡선의 형태는

같지만 표준편차가 커짐에 따라 분포곡선은 평평해진다. Z 표준점수는 평균이 0, 표준편

차 1로 하여 원점수를 직선 전환(linear transformation)한 점수이다(이종성, 1983). 등간