elearning.vnua.edu.vnelearning.vnua.edu.vn/uploads/images/users_1341112/xác... · 2019. 8. 30. ·...
TRANSCRIPT
BàigiảngXácsuấtThốngkê2017
KIỂMĐỊNHGIẢTHUYẾTTHỐNGKÊ
1
CHƯƠNG5
Bộ môn Toán Khoa Công nghệ thông tin -VNUA
Năm học 2017 – 2018
BàigiảngXácsuấtThốngkê2017
NỘI DUNG 1. Các định nghĩa
2. Kiểm định giả thuyết tham số
- Kiểm định giá trị kỳ vọng
- Kiểm định giá trị xác suất
- So sánh hai giá trị kỳ vọng
- So sánh hai giá trị xác suất
3. Kiểm định giả thuyết phi tham số:
- Kiểm định một phân bố xác suất
- Kiểm định sự độc lập của hai đặc tính
2
BàigiảngXácsuấtThốngkê2017
VấnđềVí dụ: Năng suất lúa trung bình vụ xuân năm 2015 tại huyện
Quỳnh Phụ - Thái Bình là 2,3 tạ/sào. Điều tra năng suất 100 thửa tại Quỳnh Phụ vụ xuân 2016 ta được trung bình mẫu là 2,5 tạ/sào và độ lệch chuẩn mẫu là 0,15 tạ/sào. Hỏi rằng ta có thể kết luận năng suất trung bình của vụ xuân 2016 cao hơn vụ xuân 2015 hay không?
Vấn đề: Xét giả thuyết nghiên cứu: “ ”, trong đó là năng suất trung bình vụ xuân 2016 của huyện Quỳnh Phụ.
Dựa vào mẫu quan sát, ta cần đưa ra quyết định chấp nhận hay bác bỏ giả thuyết trên.
3
µ > 2,3 µ
BàigiảngXácsuấtThốngkê2017
CáchgiảiquyếtBước 1: Xây dựng giả thuyết không (đảo) trái với giả thuyết
nghiên cứu, kí hiệu là , gọi tắt là giả thuyết.
Ví dụ: (năng suất trung bình vụ xuân 2016 không cao hơn vụ xuân 2015).
Giả thuyết nghiên cứu gọi là đối thuyết, kí hiệu là
Bước 2: Xây dựng quy tắc kiểm định để dựa vào mẫu quan sát (bằng chứng), ta bác bỏ (chấp nhận ) hoặc chấp nhận
(bác bỏ ).
4
H0
H0 :µ ≤ 2,3
H1
H1 H0
H1
H0
BàigiảngXácsuấtThốngkê2017
Giảthuyết– ĐốithuyếtBài toán tổng quát: Ta quan sát đặc tính X trong một tổng thể.
Giả sử biến X có phân bố ( là một giá trị không biết). Ta cần kiểm định một giả thuyết về tham số hoặc phân bố F.
Bước 1: Xây dựng cặp giả thuyết – đối thuyết
Giả thuyết : Giả thuyết trái với giả thuyết nghiên cứu
Đối thuyết : giả thuyết nghiên cứu
Bước 2: Xây dựng quy tắc kiểm định để dựa vào mẫu quan sát (bằng chứng), ta bác bỏ (chấp nhận ) hoặc chấp nhận
(bác bỏ ).
5
( , )F x θ θθ
H0
H1
H0H0 H1
H1
BàigiảngXácsuấtThốngkê2017
SailầmloạiIvàsailầmloạiIIH0đúng(H1sai) H0sai(H1đúng)
BácbỏH0(chấpnhậnH1) SailầmloạiI() quyếtđịnhđúng(1-)
ChấpnhậnH0(bácbỏH1) Quyếtđịnhđúng SailầmloạiII()
6
β
α
Xác suất sai lầm loại I = P(bác bỏ H0| H0 đúng)
= P(chấp nhận H1| H1 sai) =
Xác suất sai lầm loại II = P(chấp nhận H0| H0 sai)
= P(bác bỏ H1| H1 đúng) =
α
β
β
BàigiảngXácsuấtThốngkê2017
SailầmloạiIvàloạiIIVí dụ: Một công ty dược đưa ra một loại thuốc mới và nói rằng
thuốc này tốt cho bênh nhân mắc bệnh A. Thí nghiệm lâm sàng trên một số bệnh nhân mắc bệnh A để kiểm định giả thuyết này
Giả thuyết : Thuốc nguy hiểm
Đối thuyết : Thuốc tốt
= P(bác bỏ H0 | H0 đúng) = P(kết luận thuốc tốt khi thuốc nguy hiểm)
= P(bác bỏ H1| H1 đúng) = P( kết luận thuốc nguy hiểm khi thuốc tốt)
7
H0
H1
α
β
BàigiảngXácsuấtThốngkê2017
SailầmloạiIvàsailầmloạiIIH0đúng(H1sai) H0sai(H1đúng)
BácbỏH0(chấpnhậnH1) SailầmloạiI() quyếtđịnhđúng(1-)
ChấpnhậnH0(bácbỏH1) Quyếtđịnhđúng SailầmloạiII()
8
β
α
Kiểm định mức ý nghĩa (significance test): xây dựng quy tắc kiểm định để xác suất sai lầm loại I, số cho trước (gọi là mức ý nghĩa, thường xét = 5%, 1%, …).
Lực lượng kiểm định (power of test) = P(chấp nhận H1| H1 đúng)
= 1 -
α ≤
β
β
α
BàigiảngXácsuấtThốngkê2017
Kiểm định giả thuyết tham số Kiểm định một tổng thể:
- Kiểm định giá trị trung bình của phân phối chuẩn
- Kiểm định giá trị tỷ lệ trong tổng thể
Kiểm định hai tổng thể:
- So sánh hai giá trị trung bình của hai tổng thể
- So sánh hai giá trị tỷ lệ trong hai tổng thể
9
BàigiảngXácsuấtThốngkê2017
Kiểmđịnhgiátrịtrungbìnhcủaphânphốichuẩn.
Bài toán: Quan sát một biến X trong một tổng thể có phân bố chuẩn . Ta xét 3 cặp giả thuyết – đối thuyết sau ở mức ý nghĩa :
- Đối thuyết một phía về bên phải
vs
- Đối thuyết một phía về bên trái
vs
- Đối thuyết 2 phía
vs
Chú ý: Ta xét trường hợp giả thuyết đơn:
10
N(µ;σ 2 )α
H0 :µ = µ0 H1 : µ > µ0
H0 :µ = µ0 H1 : µ < µ0
H0 :µ = µ0 H1 : µ ≠ µ0H0 :µ = µ0
BàigiảngXácsuấtThốngkê2017
Kiểmđịnhgiátrịtrungbìnhcủaphânphốichuẩn.
Trường hợp 1: Ta biết , tiêu chuẩn kiểm định:
Đối thuyết
Quy tắc Bác bỏ nếu Bác bỏ nếu Bác bỏ nếu
kiểm định
11
H1 : µ > µ0 H1 : µ < µ0 H1 : µ ≠ µ0
σ 2 Z = X − µ0σ
n
H0
Z >Uα
H0 H0
Z < −Uα Z >Uα /2
BàigiảngXácsuấtThốngkê2017
Kiểmđịnhgiátrịtrungbìnhcủaphânphốichuẩn.
Trường hợp 2: không biết, tiêu chuẩn kiểm định:
Đối thuyết
Quy tắc Bác bỏ nếu Bác bỏ nếu Bác bỏ nếu
kiểm định
Chú ý: Với các GT hợp hay thì quy tắc kiểm định cũng giống với trường hợp GT đơn.
12
H1 : µ > µ0 H1 : µ < µ0 H1 : µ ≠ µ0
σ 2 T = X − µ0S
n
H0
T > tn−1;α
H0 H0
T < −tn−1;α T > tn−1;α /2
H0 :µ ≤ µ0 H0 : µ ≥ µ0
BàigiảngXácsuấtThốngkê2017
VídụVí dụ: Năng suất lúa trung bình vụ xuân năm 2015 tại huyện
Quỳnh Phụ - Thái Bình là 2,3 tạ/sào. Điều tra năng suất 100 thửa tại Quỳnh Phụ vụ xuân 2016 ta được trung bình mẫu là 2,5 tạ/sào và độ lệch chuẩn mẫu là 0,15 tạ/sào. Hỏi rằng với mức ý nghĩa 5% ta có thể kết luận năng suất trung bình của vụ xuân 2016 cao hơn vụ xuân 2015 hay không?
13
BàigiảngXácsuấtThốngkê2017
NỘI DUNG So sánh hai giá trị trung bình trong hai tổng thể:
- Đặt vấn đề
- Quy tắc kiểm định
- Áp dụng
14
BàigiảngXácsuấtThốngkê2017
VấnđềVí dụ: Điều tra năng suất lúa vụ xuân năm 2015 của 50 thửa
ruộng ở Thái Bình (X) và 60 thửa ruộng tại Nam Định (Y) ta thu được kết quả sau:
Hỏi rằng ta có thể coi năng suất lúa trung bình vụ xuân năm 2015 của tỉnh Thái Bình cao hơn tỉnh Nam Định hay không?
Vấn đề: Xét giả thuyết nghiên cứu: “ ”, trong đó là năng suất trung bình vụ xuân 2015 của tỉnh Thái Bình và Nam Định.
Dựa vào mẫu quan sát, ta cần đưa ra quyết định chấp nhận hay bác bỏ giả thuyết trên.
15
x = 7;y = 6,5;sX2 = 0,09;sY
2 = 0,1
µX > µY µX,µY
BàigiảngXácsuấtThốngkê2017
So sánh giá trị trung bình của hai tổng thể
Bước 1: Xây dựng cặp giả thuyết – đối thuyết: Gọi là năng suất trung bình vụ xuân 2015 của tỉnh Thái Bình và Nam Định.
Giả thuyết
Đối thuyết
Bước 2: Xây dựng quy tắc kiểm định để:
Xác suất sai lầm loại I = P(bác bỏ | đúng) (mức ý nghĩa cho trước)
Lực lượng kiểm định = = P(chấp nhận | đúng) lớn nhất có thể.
16
H0
H0 :µX ≤ µY
H1H1
H0
H1 : µX > µY
≤α
1− β
Cách giải quyết: µX,µY
BàigiảngXácsuấtThốngkê2017
Sosánhgiátrịtrungbìnhcủahaiphânphốichuẩn.
Bài toán: Quan sát hai biến X, Y trong hai tổng thể có phân bố chuẩn
và . Ta xét 3 cặp giả thuyết – đối thuyết sau ở mức ý nghĩa :
- Đối thuyết một phía về bên phải
vs
- Đối thuyết một phía về bên trái
vs
- Đối thuyết 2 phía
vs
Chú ý: Ta xét trường hợp giả thuyết đơn:
17
α
H0 : µX = µY H1 :µX > µY
H0 : µX = µY H1 :µX < µY
H0 : µX = µY H1 :µX ≠ µYH1 : µX = µY
N(µY ;σ Y2 )N(µX ;σ X
2 )
BàigiảngXácsuấtThốngkê2017
So sánh giá trị trung bình của hai phân phối chuẩn.
Xét hai mẫu ngẫu nhiên lấy từ tổng thể X và
lấy từ tổng thể Y.
Trường hợp 1: Kích thước mẫu n, m đủ lớn (n, m > 30)
Tiêu chuẩn kiểm định: xấp xỉ phân phối N(0; 1) khi
đúng.
Đối thuyết
Quy tắc Bác bỏ nếu Bác bỏ nếu Bác bỏ nếu
kiểm định
18
H1 :µX > µY H1 :µX < µY H1 :µX ≠ µY
H0
Z >Uα
H0 H0
Z < −Uα Z >Uα /2
(X1,X2,...,Xn )(Y1,Y2,...,Ym )
Z = X −YSX2
n+ SY
2
mH0
BàigiảngXácsuấtThốngkê2017
So sánh giá trị trung bình của hai phân phối chuẩn.
Trường hợp 2: Kích thước mẫu n, m nhỏ (n, m < 30) nhưng
Tiêu chuẩn kiểm định: có phân phối khi
đúng, trong đó:
Đối thuyết
Quy tắc Bác bỏ nếu Bác bỏ nếu Bác bỏ nếu
kiểm định
19
H1 :µX > µY H1 :µX < µY H1 :µX ≠ µY
H0
T > tn+m−2;α
H0 H0
T < −tn+m−2;α T > tn+m−2;α /2
T = X −YS2
n+ S
2
m
H0
σ X2 =σ Y
2
Tn+m−2
S2 = (n −1)SX2 + (m −1)SY
2
n +m − 2= n(x
2 − x2)+m(y2 − y
2)
n +m − 2
BàigiảngXácsuấtThốngkê2017
ÁpdụngVí dụ 1: Điều tra năng suất lúa vụ xuân năm 2015 của 50 thửa
ruộng ở Thái Bình (X) và 60 thửa ruộng tại Nam Định (Y) ta thu được kết quả sau:
Với mức ý nghĩa 5% ta có thể coi năng suất lúa trung bình vụ xuân năm 2015 của tỉnh Thái Bình cao hơn tỉnh Nam Định hay không?
20
x = 7;y = 6,5;sX2 = 0,09;sY
2 = 0,1
BàigiảngXácsuấtThốngkê2017
So sánh giá trị trung bình của hai phân phối chuẩn.
Trường hợp 3: So sánh cặp đôi
Ta quan sát theo cặp hai tổng thể X và Y có phân bố chuẩn. Xét mẫu ngẫu nhiên
Đặt D = X – Y, khi đó với Để so sánh hai giá trị kỳ vọng của X và Y, ta đưa về bài toán kiểm định giá trị kỳ vọng của biến D với các cặp giả thuyết – đối thuyết tương ứng:
và (hoặc )
Mẫu quan sát ứng với biến D là với
Tiêu chuẩn kiểm định:
21
(X1,Y1);(X2,Y2 );....;(Xn,Yn )
D ∼ N(µD;σ D2 ) µD = µX − µY .
H0 :µD = 0 H1 :µD ≠ 0 ;H1 :µD < 0H1 :µD > 0(D1,D2,....,Dn ) Di = Xi −Yi .
Z = D
SDD ∼ Tn−1
BàigiảngXácsuấtThốngkê2017
ÁpdụngVí dụ 2: Để so sánh năng suất của hai giống lúa A (năng suất X), giống lúa B ( năng suất Y), người ta trồng từng cặp trên các loại đất khác nhau sau thu hoạch ta được kết quả sau: X (tấn/ha): 6; 7; 6,5; 5,5; 4,3; 6,6; 5,8; 4,9; 5,3; 6,5 Y (tấn/ha): 5; 4; 7,5; 5,5; 5,5; 5,6; 6,8; 4,2; 6,3; 4,5 Giả sử X và Y là các biến ngẫu nhiên có phân phối chuẩn có cùng phương sai. Với mức ý nghĩa 0,05 có thể coi năng suất trung bình hai giống lúa trên là khác nhau không?
22
BàigiảngXácsuấtThốngkê2017
NỘI DUNG
3. Kiểm định giả thuyết phi tham số:
- Kiểm định một phân bố xác suất
- Kiểm định sự độc lập của hai đặc tính
23
KIỂM ĐỊNH GIẢ THIẾT VỀ PHÂN BỐ XÁC SUẤT RỜI RẠC
Xét phép thử có k kết cục A1, A2, …, Ak là một hệ đầy đủ các biến cố xung khắc từng đôi. Khi phép thử được thực hiện thì chắc chắn một trong các biến cố A1, A2, …, Ak xảy ra.
τ
Ta cần kiểm định giả thiết H1: có ít nhất một i để Giả sử tiến hành phép thử n lần một cách độc lập.
1 1
2 20
k k
P(A ) pP(A ) p
H :....P(A ) p
=⎧⎪ =⎪⎨⎪⎪ =⎩
i iP(A ) p≠τ
KIỂM ĐỊNH GIẢ THIẾT VỀ PHÂN BỐ XÁC SUẤT RỜI RẠC
KIỂM ĐỊNH GIẢ THIẾT VỀ PHÂN BỐ XÁC SUẤT RỜI RẠC
o Gọi Xi là số lần biến cố Ai xảy ra trong n phép thử
(i = 1, 2, …, k);
o Nếu H0 đúng, khi n khá lớn ( hoặc ít ra là )
o Đại lượng ngẫu nhiên
có phân phối xấp xỉ phân phối Khi – bình phương với k – 1 bậc tự do
k
ii=1X = n∑
inp 10 i≥ ∀ inp 5 i≥ ∀2k
i i
i 1 i
(X np )np=
−∑
KIỂM ĐỊNH GIẢ THIẾT VỀ PHÂN BỐ XÁC SUẤT RỜI RẠC
Mức ý nghĩa
Với mẫu cụ thể, Xi nhận giá trị ni, ta
tính
Nếu : bác bỏ H0, chấp nhận H1
Nếu : chưa có cơ sở bác bỏ H0, chấp nhận H0.
2k2 i i
i 1 i
(n np )np=
−χ =∑
2 2αχ > χ
2 2αχ χ≤
α
KIỂM ĐỊNH GIẢ THIẾT VỀ PHÂN BỐ XÁC SUẤT RỜI RẠC
Ví dụ. Sản phẩm do một nhà máy sản xuất được đóng thành từng hộp. Mỗi hộp có 12 sản phẩm gồm 2 loại: loại I và loại II. Theo báo cáo của nhà máy thì tỷ lệ hộp có 12 sản phẩm loại I là 60%. Tỷ lệ hộp có 11 sản phẩm loại I là 25%. Tỷ lệ hộp có 10 sản phẩm loại I là 10%. Tỷ lệ hộp có số sản phẩm loại I dưới 10 là 5%.
KIỂM ĐỊNH GIẢ THIẾT VỀ PHÂN BỐ XÁC SUẤT RỜI RẠC
Chọn ngẫu nhiên 1000 hộp do nhà máy này sản xuất thì thấy có 585 hộp có 12 sản phẩm loại I; 256 hộp có 11 sản phẩm loại I; 97 hộp có 10 sản phẩm loại I ; 52 hộp có 9 sản phẩm loại I và 10 hộp có 8 sản phẩm loại I. Có thể chấp nhận báo cáo của nhà máy hay không? Tính giá trị của tiêu chuẩn kiểm định và đưa ra kết luận với mức ý nghĩa 5%.
KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP
o Xét phép thử có h×k kết cục được biểu diễn bởi (i = 1, 2, …, h;j = 1, 2, …, k) trong đó A1, A2, …, Ah là hệ đầy đủ các biến cố xung khắc từng đôi, còn B1, B2, …, Bk là một hệ đầy đủ các biến cố xung khắc từng đôi khác.
o A1, A2, …, Ah biểu thị mức độ (hay sự xếp loại) của một dấu hiệu A.
o B1, B2, …, Bk biểu thị mức độ (hay sự xếp loại) của một dấu hiệu B nào đó.
τi jA B∩
KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP
o Ta nói A và B độc lập nếu
o Ta cần kiểm định giả thiết
H0: A và B độc lập
H1: A và B không độc lập
o Tiến hành phép thử n lần một cách độc lập
i j i jP(A B ) P(A )P(B ) i, j∩ = ∀
τ
KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP
o Gọi Xij là số lần biến cố xảy ra trong
n phép thử.
o Số lần biến cố Ai xảy ra là
o Số lần biến cố Bj xảy ra là
i jA B∩
k
i ijj 1
M X=
=∑h
j iji 1
N X=
=∑k h
ijj 1 i 1
X n= =
=∑∑h
ii 1M n
=
=∑k
jj 1N n
=
=∑
KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP
o Nếu H0 đúng, khi đó
o Mức ý nghĩa
o Với mẫu cụ thể, Xij nhận giá trị nij
(i = 1, 2, …, h ; j = 1, 2, …, k)
α( ) ( ) ( ) i,ji j i jP A B P A P B∩ = ∀
KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP
o Ước lượng của P(Ai) là
o Ước lượng của P(Bj) là
o Khi n khá lớn, đại lượng ngẫu nhiên
có phân phối xấp xỉ phân phối Khi – bình phương với (h – 1)(k – 1) bậc tự do
iMnjNn2
jiijk h
jj 1 i 1 i
NMX n. .n nNMn. .
n n= =
⎛ ⎞−⎜ ⎟
⎝ ⎠∑∑
KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP
B A B1 B2 … Bk Tổng
A1 n11 n12 … n1k m1
A2 n21 n22 … n2k m2
…
…
…
… …
…
Ah nh1 nh2 … nhk mh
Tổng n1 n2 … nk n
chia bình phương
chia
KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP
o Ta tính
o Nếu : bác bỏ H0, chấp nhận H1
o Nếu : chưa có cơ sở bác bỏ H0,
chấp nhận H0
2ji
2ijk h k hij2
jj 1 i 1 j 1 i 1i i j
nmn n. .nn n
n 1nm m .nn. .n n
= = = =
⎛ ⎞−⎜ ⎟ ⎛ ⎞⎝ ⎠χ = = −⎜ ⎟⎜ ⎟⎝ ⎠
∑∑ ∑∑
2 2αχ > χ
2 2αχ ≤ χ
KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP
Ví dụ Để nghiên cứu xem quy mô của công ty có ảnh hưởng đến hiệu quả quảng cáo đối với khách hàng hay không, người ta tiến hành phỏng vấn 400 khách hàng và thu được kết quả sau:
KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP
Với mức ý nghĩa 5%, có thể cho rằng quy mô của công ty có ảnh hưởng đến hiệu quả của quảng cáo đối với khách hàng hay không?
Quy mô công ty Hiệu quả quảng cáo
Mạnh Vừa phải Yếu
Nhỏ và vừa 72 36 30
Lớn 83 109 70
KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP
Ta cần kiểm định giả thiết
o H0: Quy mô của công ty không ảnh hưởng đến hiệu quả của quảng cáo đối với khách hàng (độc lập)
o H1: Quy mô của công ty có ảnh hưởng đến hiệu quả của quảng cáo đối với khách hàng (không độc lập)
KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP
Mạnh Vừa phải Yếu Tổng
Nhỏ và vừa 72 36 30 138
Lớn 83 109 70 262
Tổng 155 145 100 400
KIỂM ĐỊNH GIẢ THIẾT VỀ TÍNH ĐỘC LẬP
Từ đó ta tính được: Vì nên ta bác bỏ H0
Quy mô của công ty có ảnh hưởng đến hiệu quả của quảng cáo đối với khách hàng.
2k hij2
j 1 i 1 i j
nn 1 16,6969
m .n= =
⎛ ⎞χ = − =⎜ ⎟⎜ ⎟⎝ ⎠
∑∑2 2
0,05; 2 5,991χ > χ =