head first statistics14
DESCRIPTION
Head first statistics14TRANSCRIPT
Head First Statistics Ch.14 𝝌2(Chi) 분포
2012. 6.30chois79
12년 6월 30일 토요일
이 장에서는...
13장 가설 검증
영가설을 기준으로 검정 집단의 통계가 얼마나 발생하기 어려운 경우인지를 판단하여 가설을 검증
이 장에서는 결과를 분석
기대하는 것과 실제로 일어난 일의 차이를 분석하여 무엇인가 잘못되고 있다는 것을 판단
그럼 무엇이 다른가?
13장: 기하 분포, 이항 분포, 푸아송 분포를 따를 때
𝝌2 분포: 분포와 관계 없이 결과를 가지고 검증
12년 6월 30일 토요일
뚱보 댄의 카지노슬롯머신
슬롯머신의 확률 분포
1000번 실행한 후 실제 결과
X (수입) -2 23 48 73 98
P(X=x) 0.977 0.008 0.008 0.006 0.001
X (수입) -2 23 48 73 98
도수 965 10 9 9 7
12년 6월 30일 토요일
뚱보 댄의 카지노슬롯머신
관측도수 vs 기대도수X P(X=x) 관측 도수 기대 도수 (P(x) * 1000)
-2 0.977 965 977
23 0.008 10 8
48 0.008 9 8
73 0.006 9 6
98 0.001 7 1
12년 6월 30일 토요일
𝝌2 검사기대되는 것과 실제로 얻게 되는 것 사이에 존재하는 차이를 평가
𝝌2 = 𝛴 (O - E)2 / E
O: 관측 도수
E: 기대 도수
뚱보 댄의 카지노 - 𝝌2
𝝌2 = (965-977)2/977 + (10-8)2/8 + (9-8)2/8 + (9-6)2/6 + (7-1)2/1 = 38.272
12년 6월 30일 토요일
𝝌2 분포 2가지 주요한 용례
적합도
어떤 데이터의 집합이 어떤 분포에 얼마나 잘 맞는지 검사
독립성
두 변수의 독립성을 검사하는데 사용
𝝌2 분포
X2 ~𝝌2 (ν): 자유도 ν를 갖는 검정 통계 X2를 사용한다는 의미
ν(nu): 자유도
12년 6월 30일 토요일
자유도 νν에 따른 𝝌2의 분포
그림에서 k는 ν를 의미
그림 출처: http://en.wikipedia.org/wiki/Chi-squared_distribution
자유도 ν의 의미
부과된 제약 사항을 고려하면서 우리가 계산해야만 하는 기대 도수의 수
ν = (클래스의 수) - (제약의 수)
Ex)
ν = 5 - 1 = 4
X (수입) -2 23 48 73 98
도수 977 8 8 6 1
12년 6월 30일 토요일
𝝌2의 유의성이란?관측도수와 기대도수 사이에 존재하는 차이가 얼마나 유의한지를 의미
기각역은 상위 꼬리의 단측 검증을 사용
유의수준 ɑ를 이용해서 𝝌2 검정을 수행
P(𝝌2ɑ(ν) ≥ x) = ɑ
그림 출처: http://www.medcalc.org/manual/chi-square-table.php
𝝌2 확률 테이블을 사용하여 기각역을 구함
Ex) 자유도 4에 대한 유의수준 25%를 구함
12년 6월 30일 토요일
𝝌2을 이용한 가설 검정가설 검정 단계
검정을 수행할 가설과 대립 가설을 설정
기대 도수와 자유도를 계산
결정을 내리는 데 사용할 기각역 설정
검정 통계 𝝌2을 계산
검정 통계가 기각역 안에 있는지 여부를 확인
결정
12년 6월 30일 토요일
𝝌2을 이용한 가설 검정: 적합도 검정(Ex: 댄의 슬롯머신)
유의 수준 5%
영가설 설정
H0: 슬롯머신에서 금액을 딸 확률은 아래와 같은 확률 분포를 따름
기대 도수와 자유도 계산 및 5% 수준의 기각역 설정
자유도: 5 - 1 = 4
기각역 영역: 𝝌25%(4) = 9.49
검정 통계 계산 및 기각역 검증
𝝌2 = 𝛴 (O - E)2 / E = 38.272 > 9.49
결론
기각역 안에 존재하므로, 해당 슬롯 머신은 위와 같은 확률 분포를 따르지 않음
X (수입) -2 23 48 73 98
P(X=x) 0.977 0.008 0.008 0.006 0.001
12년 6월 30일 토요일
𝝌2 적합도 검정대부분의 확률 통계에서 사용 가능
실제 관측을 기준으로 함
𝝌2 를 위한 자유도 설정분포 조건 ν(자유도)
이항 P를 알고 있을 경우P의 값을 모르고 있을 경우
n - 1n - 2
푸아송 𝜆의 값을 알고 있을 경우𝜆의 값을 모르고 있을 경우
n - 1n - 2
정규 평균과 분산을 알고 있을 경우평균과 분산을 모르고 있을 경우
n - 1n - 3
12년 6월 30일 토요일
𝝌2을 이용한 독립성 검정어느 두 요소가 서로 독립인지를 검정
독립성 검정 단계
검정을 수행할 가설과 대립 가설을 설정
기대 도수와 자유도를 계산
단, 서로 독립이라는 가설에 근거하여 기대 도수를 계산
결정을 내리는 데 사용할 기각역 설정
검정 통계 𝝌2을 계산
검정 통계가 기각역 안에 있는지 여부를 확인
결정
12년 6월 30일 토요일
뚱보 댄의 카지노블랙잭 - 쿠르피에(1/3)쿠르피에 한 사람이 실제보다 많은 돈을 잃고 있는가?
각 쿠프피에에 대한 관측 결과
만약 쿠르피에가 결과와 서로 관련이 없을 경우
P(승리) = 승리총합/전체총합 <= 승리한 비율
P(A) = A총합/전체총합 <= A가 게임한 비율
즉, 위의 2 확률이 서로 독립적
P(A가 이기는 비율) = P(승리) * P(A) = 승리총합/전체총합 * A총합/전체총합
기대 도수 = 전체 총합 * P(A가 이기는 비율) = 승리총합 * A총합 / 전체총합
쿠르피에 A 쿠르피에 B 쿠르피에 C
승리 43 49 22
무승부 8 2 5
패배 47 44 30
12년 6월 30일 토요일
뚱보 댄의 카지노블랙잭 - 쿠르피에(2/3)관측 결과
기대 도수
𝝌2 = 𝛴 (O - E)2 / E = 5.004
쿠르피에 A 쿠르피에 B 쿠르피에 C 총계
승리 43 49 22 114
무승부 8 2 5 15
패배 47 44 30 121
총계 98 95 57 250
쿠르피에 A 쿠르피에 B 쿠르피에 C
승리 114*98/250 = 44.688 114*95/250 = 43.32 114*57/250 = 25.992
무승부 15*98/250 = 5.88 15*95/250 = 5.7 15*57/250 = 3.42
패배 121*98/250 = 47.432 121*95/250 = 45.98 121*57/250 = 27.588
12년 6월 30일 토요일
뚱보 댄의 카지노블랙잭 - 쿠르피에(3/3)자유도 계산
ν = (클래스의 수) - (제약의 수) = 9 - 5 = 4
1%의 유의 수준에서 독립여부 확인
기각역 영역: 𝝌21%(4) = 13.28 > 5.00
결정
𝝌2이 기각역의 밖에 있으므로 서로 영가설을 받아 들임
쿠르피에 A 쿠르피에 B 쿠르피에 C
승리
무승부
패배
12년 6월 30일 토요일
자유도 일반화열 1 ... 열 k-1 열 k
행 1
열 1
행 1
...
행 h-1
행 h-1
열 1 ... 열 k-1 열 k
행 1
...
행 h-1
행 h
ν = h - 1
ν = k - 1
ν = (h - 1) * (k - 1)
12년 6월 30일 토요일
𝝌2 분포 2가지 주요한 용례
적합도
어떤 데이터의 집합이 어떤 분포에 얼마나 잘 맞는지 검사
독립성
두 변수의 독립성을 검사하는데 사용
𝝌2 = 𝛴 (O - E)2 / E
𝝌2 의 분포
자유도(ν)와 밀접한 관련이 있음
자유도(ν) = (h - 1) * (k - 1)
12년 6월 30일 토요일