các v§n đ• liên quan quan mô hình x§p x¿ · · 2016-09-15chøng minh sü “gƒn...
TRANSCRIPT
Các vấn đề liên quan quan mô hình xấp xỉ
Lê Văn Chánh
Ngày 15 tháng 12 năm 2015
Tóm tắt nội dung
Một lần nữa, Nhật, Phùng Minh Nhật, lại “ra đề khó”. Bài viết nhỏ này, tôi đưa ra một số bình luận nhằmtăng sức thuyết phục về mô hình xấp xỉ (cái mà theo Nhật không đáng tin cậy khi biến ngẫu nhiên nhận cảnhững giá trị mà thực tế không xảy ra). Ngoài ra, tôi sẽ bàn thêm về vài điều kiện trong việc xấp xỉ mộtphân phối nhị thức thành Poisson hoặc chuẩn, và xấp xỉ phân phối Poisson thành phân phối chuẩn. Nếu cóthêm thời gian, tôi sẽ đưa ra một số thí dụ (trong trường hợp không có thời gian, tôi chỉ dẫn bài tập liên quan).
1 Bàn về mô hình hóaMột điều bắt buộc phải xuất hiện trong mô hình hóa là bỏ bớt ràng buộc. Việc bỏ bớt các ràng buộc có thể vìmục đích có được một mô hình toán đơn giản diễn tả “gần đúng” vấn đề thực tế (nếu người mô hình hóa thấy/chứng minh sự “gần đúng” đó đã đủ tốt thì không cần cố gắng xây dựng mô hình phức tạp hơn) hoặc có thểvì không tồn tại mô hình thực tế thỏa tất cả các ràng buộc của “thực tế”. Do đó khi sử dụng mô hình, ta phảituân thủ theo mô hình và cần phải bỏ đi (quên đi) các ràng buộc thực tế (do ý nghĩa thực tế của đối tượng cầnmô hình sinh ra). Đối với giả định ở Bài toán 8-10 (Đề cương ôn tập ĐĐXS), chúng ta phải “thả lỏng” tất cảcác ràng buộc và thay vào đó ta chấp nhận nó như một biến ngẫu nhiên nhận giá trị trên toàn miền R. Đó là giảthiết-giống như luật chơi- nếu ta không chấp nhận thì ta không thể tiếp tục làm bất kỳ điều gì. Khi chấp nhậnđiều đó có thể dẫn đến điều vô lý. Thí dụ: có một gia đình có số con lớn tùy ý 1. Tuy nhiên, ta có thể chấp nhậnnó về phương diện xác suất thống kê khi xấp xỉ một sự kiện không bao giờ xảy ra bởi một sự kiện rất hiếm xảy ra(xác suất xảy ra rất bé). Sau khi chấp nhận hoặc chấp nhận tạm thời (để kiểm tra), một câu hỏi quan trọngcủa việc mô hình hóa là mô hình có tốt không?- Điều này không được quan tâm trong các bài tập đang đềcập đến. Thí dụ về ”mô hình tốt”: Một đối tượng X nhận giá trị trên tập (support) A⊂ R và được mô hình thànhmột biến ngẫu nhiên X thỏa P(X ∈ R\A) rất bé; khi đó ta có thể xem mô hình này “tốt” về mặt xác suất (xemthêm Nhận xét 2.1).
Nhận xét 1.1. Nhận xét thêm về khoảng tin cậy.Nếu A⊃ [µ−3σ ,µ +3σ ] thì
P(X ∈ A)≥ P(X ∈ [µ−3σ ,µ +3σ ]) = Φ(3)−Φ(−3) = 2Φ(3)−1≈ 0.9974.
Do đó, nếu miền giá trị thực của đại lượng ban đầu, còn gọi là support, chứa đoạn [µ−3σ ,µ +3σ ] thì biếnngẫu nhiên tương ứng có thể xấp xỉ tốt/chấp nhận được (theo nghĩa xác suất). Ý tưởng này liên quan đến quy tắck−σ .
2 Xấp xỉ cho phân phối nhị thức, phân phối Poisson
2.1 Xấp xỉ cho phân phối nhị thứcGiả sử X ∼ B(n, p) với np, n(1− p) ≥ 5 (xem [BOM+03]) (có thể có thêm điều kiện cho p, n : n ≥ 30, p ∈(0.1,0.9)). Khi đó ta có thể xấp xỉ về mặt xác suất biến ngẫu nhiên X (có phân phối nhị thức) bởi một biến ngẫunhiên Y có phân phối chuẩn, ta viết X ≈Y . Theo Định lý Moivre-Laplace, người ta chọn Y ∼N (np,np(1− p)).
1Bài 33 (Bài tập bổ sung) giả định rằng xác suất để một gia đình có n con là α pn, trong đó n≥ 1,α ∈(
0, 1−pp
].
1
2
Với mong muốn đảm bảo đặc tính xác suất sau vẫn “công bằng” (và hi vọng có thể giảm thiếu sai số):
P(X ≤ x) = P(X < x+1)∀x ∈ {0, 1, ..., n}, (1)
và nhằm giảm sự sai biệt giữa range(X) = {0, 1, ..., n} và range(Y ) = R, người ta dùng mô hình xấp xỉ C.C(Continuity Correction)
P(X ≤ x) = P(X < x+1)≈ P(Y ≤ x+1/2). (2)
(Về phương diện ý nghĩa, miền giá trị ban đầu là một tập con của tập số nguyên không âm. Do đó ta chỉ áp dụngCC cho x là số nguyên (không âm).)
Với x∈Z, bằng Công thức xấp xỉ (2), chúng ta sẽ có các xấp xỉ cho P(X < x), P(X ≤ x), P(X > x), P(X ≥ x).Cụ thể
P(X < x) = P(X ≤ x−1)≈ P(Y ≤ x−0.5),P(X ≤ x) = P(X < x+1)≈ P(Y ≤ x+0.5),P(X > x) = 1−P(X ≤ x)≈ 1−P(Y ≤ x+0.5),P(X ≥ x) = 1−P(X < x)≈ 1−P(Y ≤ x−0.5),.P(X = x) = P(x−1 < X < x+1)≈ P(x−0.5≤ Y ≤ x+0.5).
Một thí dụ nhằm minh họa cho CC (xem Thí dụ 2.1).
Thí dụ 2.1. Thí dụ như Hình 1. Với n đủ lớn, điều kiện đủ tốt, P(Y > 920) và P(Y < 870) trở nên rất bé. Khiđó mô hình xấp xỉ trở nên tốt hơn.
Hình 1: Minh họa CC (stas.stackexchange.com)
Nhận xét 2.1. Áp dụng quy tắc 3σ cho xấp xỉ này một biến ngẫu nhiên X ∼ B(n, p) bởi phân phối chuẩnN (np,np(1− p)), điều kiện [np−3
√np(1− p),np+3
√np(1− p)]⊂∈ [0,n] trên trở thành
µ±3σ = np±3√
np(1− p) ∈ [0,n].
Do đó n≥max{ 9(1−p)p , 9p
1−p}. Như vậy ta có thể dùng điều kiện này để đảm bảo mô hình xấp xỉ đủ “tốt".
Nhận xét 2.2. Nếu X ∼ B(n, p), đặt λ = np thì X ≈ Po(λ ). Xấp xỉ này tốt nếu n≥ 30, np < 5, p≤ 0.1)2. (TheoĐịnh lý giới hạn Poisson.)
Thí dụ 2.2. Một số thí dụ: tham khảo Jeffrey S. Simonoff, The normal approximation to the binomial, courseStatistics and Data Analysis, http://people.stern.nyu.edu/jsimonof/classes/1305/pdf/contcorr.pdf và http://www.regentsprep.org/regents/math/algtrig/ats7/blesson3.htm.
2Một số tài liệu khác đưa ra điều kiệnn≥ 20 và p≤ 0.05, hoặc n≥ 100 và np≤ 10.
3
Nhận xét 2.3 (Một số thuận lợi khi xấp xỉ phân phối nhị thức thành phân phối chuẩn khi n đủ lớn.). Về phươngdiện tính toán, việc xấp xỉ phân phối nhị thức thành phân phối chuẩn làm cho việc tính toán dễ dàng hơn. Ngoàira, trong tính toán số biểu thức
(kn
)pk(1− p)n−k trở nên mất ý nghĩa khi giá trị của chúng có thể nhỏ hơn độ
chính xác đang dùng nên có thể xảy ra tình huốngm∑
k= j
(kn
)pk(1− p)n−k“ = ”0 (đối với độ chính xác nào đó).
Hơn nữa, nếu tính toán không cẩn thận biểu thức(
kn
)pk(1− p)n−k có dạng ∞.0 có thể dẫn đến sai số lớn.
Nhận xét 2.4. Tài liệu tham khảo thêm: Feller, W., On the normal approximation to the binomial distribution, TheAnnals of Mathematical Statistics, Vol. 16 No. 4, Page 319-329, 1945; “How good is the normal approximation?”[Pit93, trang 103].
2.2 Xấp xỉ cho phân phối PoissonĐối với biến ngẫu nhiên X ∼ Po(λ ), với điều kiện3 λ > 10, ta có xấp xỉ biến ngẫu nhiên này X ≈Y ∼N (λ , λ ).Ta cũng sử dụng mô hình xấp xỉ CC như trên.
Nhận xét 2.5 (Sơ đồ xấp xỉ).
B(n, p) Po(λ )
N (np,np(1− p)) N (λ ,λ )
n(1− p)> 5 np > 5
λ := np < 5
λ > 10
3 Đánh giá sai số cho CLTĐịnh lý 3.1 (Berry–Esseen4). Giả sử dãy biến ngẫu nhiên X1, X2, ... độc lập cùng phân phối, và ρ :=E|X1|3 <∞.Đặt trung bình mẫu Yn := X1+X2+···+Xn
n , và Fn là phân phối tích lũy của Yn√
nσ
, và Φ(x) là hàm phân phối tích lũycủa phân phối chuẩn tắc. Khi đó tồn tại hằng số C sao cho với mọi x, n, ta có
|Fn(x)−Φ(x)| ≤ Cρ
σ3√n. (3)
Định lý này chỉ ra tốc độ hội tụ của phân phối của trung bình mẫu về phân phối chuẩn (theo phân phối) làn−12 , trong đó n là cỡ mẫu. Cụ thể
Nhận xét 3.1. Đối với xấp xỉ dựa vào Định lý giới hạn trung tâm (CLT), ta không dùng CC.
4 Nội dung khácBài toán 1. Đơn giản hóa kết quả của Phúc Hậu (xem Hình 2).
Tài liệu tham khảo[BOM+03] Bruce L Bowerman, Richard T O’Connell, Emily Murphree, Steven C Huchendorf, Dawn C Porter,
and Patrick Schur. Business statistics in practice. McGraw-Hill/Irwin New York, NY, 2003.
[Pit93] J. Pitman. Probability. Springer Texts in Statistics. Springer, 1993.
3Tài liệu [BOM+03, trang 230] đưa ra nhiều trường hợp khác nhau của việc xấp xỉ phân phối Poisson thành phân phối chuẩn.4https://en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem.
4
Hình 2: Tổng cần đơn giản