một số mô hình thông dụng
TRANSCRIPT
Một số mô hình thông dụng
Dùng bài tập về trình độ học vấn ảnh hưởng tới mức lương, bạn hãy xây dựng và kiểm định mô hình hồi quy đơn sau:
Salary = β0 + β1*EXP
Bạn có nhận xét gì về mối quan hệ giữa hai biến salary và EXP?
Trong trường hợp bạn đang thắc mắc rằng:
1. Mức lương sẽ tăng bao nhiêu phần trăm (%) khi kinh nghiệm tăng thêm 1 năm?
2. Mức lương sẽ tăng thêm bao nhiêu phần trăm (%) nếu như kinh nghiệm tăng thêm 1%?
3. Mức lương sẽ tăng lên bao nhiêu nếu như kinh nghiệm của bạn tăng 1%?
Nhận xét: trạng thái biến phụ thuộc và biến độc lập đã thay đổi từ giá trị tuyệt đối (biến phụ thuộc đơn vị tiền và biến độc lập đơn vị năm) sang giá trị tương đối (phần trăm).
Một số mô hình giải quyết vấn đề trên
1. Mô hình LOG LIN2. Mô hình LOG LOG
3. Mô hình LIN LOG
Đặc điểm: nghiên cứu phần trăm sự thay đổi của biến phụ thuộc khi biến độc lập thay đổi 1 đơn vị.
Bài tập: xây dựng và kiểm định mô hình
Ln(salary) = β0 + β1 *EXP
Ý nghĩa hệ số hồi quy 100*β1: là sự thay đổi (đơn vị %) về mức lương khi số năm kinh nghiệm thay đổi (tăng) 1 năm
Đặc điểm: nghiên cứu phần trăm sự thay đổi của biến phụ thuộc khi biến độc lập thay đổi 1%.
Bài tập: xây dựng và kiểm định mô hình
LOG(SALARY) = β0 + β 1 *LOG(EXP)
Ý nghĩa hệ số β 1: phần trăm sự thay đổi của biến lương khi số năm kinh nghiệm thay đổi 1%. (β1 chính là hệ số co giãn)
β1>1: mức lương thay đổi mạnh khi tăng số năm kinh nghiệm (co giãn mạnh)
β1<1: Mức lương thay đổi ít khi tăng số năm kinh nghiệm. (co giãn ít)
β1=1: Mức lương thay đổi với tỷ lệ như mức số năm kinh nghiệm. (co giãn đơn vị)
Đặc điểm: sự thay đổi (số tuyệt đối) của biến phụ thuộc khi số biến độc lập thay đổi 1%.
Bài tập: xây dựng và kiểm định mô hình
SALARY = β0 + β1 *LOG(EXP)
Ý nghĩa β1/100: là sự thay đổi về mức lương khi số năm kinh nghiệm tăng 1%.
Ôn tập
1. Hãy xét các mệnh đề sau:
(i)
(ii) .
Hai mệnh đề này là tương đương nhau
2. Giả sử đường hồi quy đi qua điểm trung bình: . Hãy xét các mệnh đề sau:
(i)
(ii)
Mệnh đề (ii) là được suy ra từ mệnh đề (i), sử dụng điều kiện là đường hồi quy đi qua điểm trung bình.
3. Xét quan hệ sau:
(i) Quan hệ này có nghĩa là: TSS = RSS + ESS
(ii) Quan hệ này được sử dụng để xác định hệ số
Cả hai mệnh đề đều đúng
4. Hãy xét quan hệ sau:
Điều này đúng, khi
5. Để đi đến kết luận là , ta có thể phải cần những yêu cầu sau:
(i) (ii)
(iii) Các biến ngẫu nhiên là theo phân bố chuẩn.
Cần cả (i), (ii), và (iii)
6. Phương pháp LS cho ta ước lượng: .
Hãy xét các mệnh đề sau:
(i) Ước lượng là một đại lượng ngẫu nhiên
(ii) Nếu không có tác động ngẫu nhiên, thì việc hồi quy trở thành tầm thường, vì ta luôn có: .
Cả hai mệnh đề (i) và (ii) đều đúng7. Trong chứng minh tính chất sau:
.
Ta cần điều kiện là là các biến ngẫu nhiên độc lập, và
8. Hãy xét tính không chệch của ước lượng LS:
Điều này đúng khi
9. Kiểm định t-stat có dạng sau: .
Để xây dựng thống kê này, ta có thể cần các điều kiện sau:
(i)
(ii) là ước lượng không chệch của
Chúng ta cần điều kiện (i) và (ii)
10.Hãy xét việc kiểm định giả thuyết sau: .vs.
Có thể so sánh t-stat với giá trị tra bảng , nhưng cũng có thể dùng p-value của t-stat để ra quyết định bác bỏ hay chấp nhận giả thuyết.
Vấn đề ước lượng các tham số mô hình:
Nhắc lại: phương pháp bình phương cực tiểu (Ký hiệu là LS) bao hàm việc chọn các tham số ước lượng , sao
cho tổng bình phương các sai số là nhỏ nhất:
Hãy chứng minh ngắn gọn các câu dưới đây.
11.Chứng minh rằng khi ước lượng theo phương pháp LS, ta có đẳng thức sau:
Trả lời: Điều kiện cực tiểu của tổng bình phương sai số là đạo hàm riêng của ESS theo phải bằng zero. Tức là:
12.Sử dụng kết quả ước lượng: , và biểu diễn: .
Hãy chứng minh rằng, độ lệch của biến cần được giải thích so với trung bình mẫu của nó, , có thể được
viết dưới hai dạng:
, Và
Trả lời: ta có và . Do vậy, lấy hiệu của hai đại lượng, ta có ngay kết quả cần chứng minh:
Tiếp theo, sử dụng , tức là: . Trừ cả hai vế cho , ta có điều cần chứng minh: .
13.Giả sử từ điều kiện trên: , ta có thể suy ra được rằng:
(*)
Hãy chỉ ra rằng, phương pháp OLS bao hàm việc làm tăng cao nhất mức độ phù hợp của đường hồi quy
với chuỗi dữ liệu quan sát. Tức là chọn sao cho là lớn nhất.
Trả lời: chia hai vế của đẳng thức (*) cho , ta có: .
Hay cũng vậy, .
Vì OLS yêu cầu là .
Tức là, OLS làm tăng cao nhất mức độ phù hợp, đo bời .
14.Sử dụng ước lượng ; hãy chứng minh rằng: ở đó, .
[Gợi ý, sử dụng các điều kiện là và ].
Trả lời:
Sử dụng điều kiện: và .
Ta có: .
15.Sử dụng giả thiết về bản chất của các quá trình ngẫu nhiên: , hãy chứng minh rằng,
[ước lượng là không chệch]
Trả lời: =
16.Hãy giải thích ý nghĩa của công thức tính độ phù hợp, . Sử dụng đồ thị để minh họa.
Trả lời: câu này sử dụng công thức: , sau đó vẽ đồ thị biểu diễn.
Tiếp đó, từ đẳng thức vừa nêu, ta rút ra: . Tiếp theo, người ta có thể chứng minh được là:
.
Từ đó rút ra công thức tính
17.Chứng minh rằng .
Sử dụng kết quả đó để chỉ ra rằng Nêu giả thiết mà em đã dùng đã dùng để chứng minh.
18.Chứng minh rằng . Do vậy,
[Gợi ý: sử dụng cái điều là , lấy tổng bình phương , ta sẽ tìm được kết quả].
Hãy nhận định xem, nếu tăng, thì hiệu quả ước lượng tăng hay giảm?
Bài toán.
Giả sử chúng ta nghiên cứu mối quan hệ giữa chi tiêu cho nghiên cứu và phát triển (ký hiệu là , tính bằng tỷ
dollars, giá cố định 1992) với số lượng bằng sáng chế phát minh (ký hiệu là , tình bằng số lượng nghìn),
tại Mỹ từ năm 1960 -1993. Tức là có quan sát. Dưới đây là bảng báo cáo kết quả hồi quy
19.Nếu thu chi tiêu cho nghiên cứu phát triển tăng thêm lên 1 tỷ dollars, thì số lượng bằng phát minh sáng
chế sẽ tăng lên bao nhiêu?
20.Cho trước . Hãy tìm khoảng tin cậy của hệ số của tổng thể.
21.Hãy tìm khoảng tin cậy của hệ số của tổng thể.
22.Nếu phương sai mẫu giảm đi, thì hiệu quả ước lượng tăng hay giảm?
23.Một nhà báo nói rằng, cứ 1 tỷ dollars chi tiêu cho nghiên cứu phát triển , thì sẽ làm tăng số lượng bằng
phát minh sáng chế lên vào khoảng 500. Hãy kiểm định lại nhận định đó với mức độ có ý nghĩa là 10%, tức
là sử dụng .
Bài toán: Giả sử chúng ta nghiên cứu mối quan hệ giữa thuế thu nhập (ký hiệu là ), với tổng thu nhập của dân
cư tại từng bang của Mỹ (ký hiệu là ), cả hai đại lượng được tính bằng tỷ dollars. Số liệu thu thập tại 51
tiểu bang. Dưới đây là bảng báo cáo kết quả hồi quy
24.Liệu các dấu đi kèm với các hệ số ước lượng có phù hợp với kỳ vọng của các em về những dấu đó không?
Tại sao?
25.Các em diễn giải kết quả ước lượng này như thế nào? Khi thu nhập của một bang tăng thêm 1 tỷ dollars, thì
thu thuế của chính phủ tăng bao nhiêu?
26.Cho trước . Hãy tìm khoảng tin cậy của hệ số của tổng thể.
27.Hãy tìm khoảng tin cậy của hệ số của tổng thể.
28.Một nhà báo nói rằng, tổng thu nhập của từng bang ít có ý nghĩa giải thích cho số lượng thu thuế của bang
đó. Hãy kiểm định lại nhận định đó với mức độ có ý nghĩa là 5%, tức là sử dụng
000.2]49[025.0 t .
29. Biến được giải thích yn có thể được viết dưới 2 dạng:
Với là ước lượng cho α, β và εn.
Trả lời: câu này sai (S) vì rằng hai phương trình đầu phải viết là:
Trong đó, là sai số ngẫu nhiên của mô hình;
là sai số ứơc lượng.
Khi đó mệnh đề sau mới có ý nghĩa.
30.Người ta có thể đo lường được sai số ước lượng nhưng không thể đo lường được εn.
Trả lời: (Đ), vì nếu đo lường được thì không cần phải ước lượng nữa.
31.Khi lấy tổng bình phương sai số cực tiểu:
Điều đó bao hàm rằng
Trả lời: (Đ), vì lấy đạo hàm cấp 1 (FOC), ta sẽ có:
32.
Điều kiện (1) nói rằng không nằm trên đường hồi quy
Trả lời: (S), vì (1) tương đương với việc nói rằng ; tức là nằm trên đường hồi quy.
Điều kiện (2) nói rằng hồi quy chỉ có ý nghĩa nếu những thay đổi giữa x và y là có tương quan với nhau.
Trả lời: (Đ), vì là covarian mẫu giữa .
Nếu chúng không có tương quan, thì về trung bình, , tức là không giải thích cho .
33.Công thức
Là cách viết khác của
Trả lời: (Đ), vì đó là định nghĩa của .
34.Phương pháp bình phương cực tiểu (least square) là nhằm đạt giá trị cao nhất của
Trả lời: (Đ), vì nó yêu cầu .
35.Nhìn vào bảng báo cáo kết quả hồi quy
Kết quả này nói lên rằng mức tiêu dùng (CONS) thiết yếu là 7.38; và nếu thu nhập (INCOME) tăng lên 1, thì
tiêu dùng (CONS) giảm 0.23%.
Trả lời: (S), vì phải nói tiêu dùng tăng 0.23%.
36.Các giả thiết của mô hình hồi quy có thể viết gọn lại như sau:
(a) Giả thiết (1) nói lên rằng , với mọi quan sát n.
Trả lời: (Đ), vì mô hình cơ bản là: ;
Do vậy, .
Điều kiện (1) do đó bao hàm điều là .
(b)Giả thiết (2) nói lên rằng , với mọi quan sát n
Trả lời: (Đ)Giả thiết (2) cũng nói rằng với mọi ,
Trả lời: (Đ), vì theo giả thiết mô hình, đây là phân phối chuẩn, iid, đồng nhất, độc lập, có phân bố chuẩn. Tính độc
lập thể hiện là .
Sử dụng công thức
37.Chỉ ra rằng có phân bố chuẩn. Nêu giả thiết mà anh/chị đã dùng để chứng minh mệnh đề đó.
Trả lời: (Đ), vì là tổ hợp tuyến tính của các , mà chúng có phân bố chuẩn.
38.Chứng minh rằng hay nói cách khác, là ước lượng không chệch của β tổng thể.
Trả lời: sử dụng cái điều là , và . Ta có,
39.Chứng minh rằng . Sử dụng kết quả đó để chỉ ra rằng Nêu giả thiết
mà anh/chị đã chọn.
Trả lời: dùng cái điều là ; do đó,
.
Tiếp theo, vì ; và ; cho nên,
.
40.Chứng minh rằng . Do vậy,
Trả lời: câu này đòi hỏi phải nhớ .
Đưa vào tính toán sẽ thấy ra kết quả cần chứng minh.
41.Chứng minh rằng với c là constant.
Trả lời: cần chứng minh là tức là ; hay là .
Nhưng cái cuối cùng là định nghĩa của trung bình mẫu.
42.Cơ sở lý thuyết xác suất thống kê. Hãy xét các mệnh đề sau:
(i)
(ii) (iii) (iv)
(v) (vi)
Mệnh đề (i) chỉ đúng khi X và Y là độc lập Mệnh đề (iv) có thể được suy ra từ mệnh đề (v)
43.Lý thuyết ước lượng hồi quy đơn:Mô hình hồi quy đơn có dạng:
Ước lượng LS: và sai số ước lượng: .
Cho các điều kiện sau:
(i): (ii) : .
(iii) Điểm nằm trên đường hồi quy;
(iv): .
Mệnh đề (i) suy ra mệnh đề (iii)
Mệnh đề (iii) chỉ đúng khi hồi quy có dạng:
Mệnh đề (iii) và (iv) nói lên
44.Xét quan hệ sau
(i) .
(ii) Quan hệ này được sử dụng để xác định hệ số
Cả hai mệnh đề đều đúng
Bài toán
Một công ty bảo hiểm muốn đanh giá mối quan hệ giữa khoản ma bảo hiểm nhân thọ (INSUR, đo bằng 1000USD) của một gia đình, với thu nhập của gia đình đó (INC, đo bằng 1000USD). Từ số mẫu 20 quan sát mà họ đã thu thập được
45.Cơ sở lý luận cho việc lập hàm tương quan ước lượng này là:Khả năng xẩy ra rủi roSố thu nhập bằng tiền bị mất đi, nếu rủi ro xẩy raTâm lý sợ rủi ro của khách hàng mua bảo hiểm
46.Giả sử nhóm nghiên cứu thị trường của Công ty đề xuất mô hình về nhu cầu mua bảo hiểm có dạng như sau:
Bảng kết quả ước lượng được ghi lại như sau:
Dependent Variable: INSUR
Method: Least Squares
Date: 03/31/09 Time: 10:00
Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C 6.854991 7.383473 0.928424 0.3655
INC 3.880186 0.112125 34.60601 0.0000
R-squared 0.985192 Mean dependent var 236.9500
Adjusted R-squared 0.984370 S.D. dependent var 114.8383
S.E. of regression 14.35730 Akaike info criterion 8.261033
Sum squared resid 3710.375 Schwarz criterion 8.360606
Log likelihood -80.61033 F-statistic 1197.576
Durbin-Watson stat 3.175965 Prob(F-statistic) 0.000000
47.Theo kết quả ước lượng, nếu thu nhập tăng thêm 1000USD, thì nhu cầu mua bảo hiểm sẽ tăng lên là bao nhiêu?
3880 USD
48.Nếu thành viên M1 của ban quản lý tuyên bố ràng, cứ mỗi 1000 USD tăng lên về thu nhập sẽ làm tăng bảo hiểm nhân thọ lên 5.88 (ngàn USD). Thành viên M2 nói rằng việc tăng 1000USD không có ảnh hưởng gì tới nhu cầu mua bảo hiểm nhân thọ; và thành viên M3 lại nói, cứ 1000USD tăng về thu nhập thì làm tăng nhu câu mua bảo hiểm nhân họ lên 3.99 (ngànUSD). Liệu kết quả ước lượng nêu trên có hỗ trợ cho các lời tuyên bố này với mức ý nghĩa 5% (5% significance level)?
Hãy kiểm định ở mức ý nghĩa 5%, với
Duy nhất có thành viên M3 là đúng
49.Ban giám đốc thấy rằng, kết quả nghiên cứu thị trường của nhóm có vấn đề ở chỗ hệ số quy là rất không
có ý nghĩa (Tại sao?). Họ nghi vấn về cách lập phương trình hồi quy, và đề nghị nhóm làm lại mô hình như sau:
Kết quả ước lượng được đưa ra như sau:
Dependent Variable: LOG(INSUR)
Method: Least Squares
Date: 03/31/09 Time: 09:31
Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C 1.558458 0.133324 11.68922 0.0000
LOG(INC) 0.958075 0.033334 28.74210 0.0000
R-squared 0.978676 Mean dependent var 5.363576
Adjusted R-squared 0.977491 S.D. dependent var 0.470107
S.E. of regression 0.070530 Akaike info criterion -2.370917
Sum squared resid 0.089541 Schwarz criterion -2.271344
Log likelihood 25.70917 F-statistic 826.1085
Durbin-Watson stat 2.775243 Prob(F-statistic) 0.000000
Biết rằng, kết quả ước lượng này có thể viết lại như sau: .Trong đó, lần lượt là thay đổi % của INSUR và thay đổi % của INC.
Khi thu nhập tăng 1% thì chi cho bảo hiểm tăng 0.958%Bài toán
Mỗi tuần, chi nhánh McDonal ở Hong Kong phải quyết định chi bao nhiêu cho quảng cáo (advertising, a). Đây là một thương hiệu lớn và nó chi hàng nghìn dollars vào quảng cáo mỗi tuần ở trên TV hoặc tạp chí. Cụ thể là nó quan tâm liệu chi cho quảng cáo làm tăng tổng doanh số (total receipts, tr) là bao nhiêu. Nó cũng phải quan tâm đâu là chiến lược giá (price, p) tốt nhất. Cần nói rằng, các thực đơn với hamburger thường là tương tự nhau, và giá của hầu hết các sản phẩm đó đuợc giữ không đổi. Tuy nhiên, một vài sản phẩm được giảm giá đặc biệt, hoặc được bán kèm với quà biếu. (Đây cũng là một chiến lược làm quảng cáo). Thêm vào đó, một vài sản phẩm mới được tung ra thị trường với giá lựa chọn ở mức thấp. Điều cần quan tâm là giảm giá sẽ dẫn đến sự gia tăng thế nào về tổng doanh số. Nếu như sự giảm giá chỉ dẫn đến một sự gia tăng không đáng kể của số lượng bán, tổng doanh số sẽ giảm (nhu cầu là ít co giãn: demand is price inelastic); nếu giảm giá dẫn đến sự gia tăng đáng kể của số lượng bán thì điều đó sẽ dẫn tới việc tăng doanh số (nhu cầu là co giãn: demand is price elastic).
Hãy hình dung Việt nam đã gia nhập WTO, và em được thuê bởi McDonal làm nhà tư vấn chiến lược cho chi nhánh của nó ở Hong kong. Để biết xem nên có chiến lược giá và quảng cáo thế nào, em lập mô hình như sau:
Mô hình A:
Ở đó, là tổng doanh số bán trong một tuần (nghìn dollars); là giá bán (dollars); và là chi phí quảng cáo trong tuần đó (nghìn dollars).
50.Hãy dự đoán dấu của các tham số, giải thích ngắn gọn tại sao em lại chọn như vậy;
Nếu nhu cầu là co giãn, thì ; ; và
51.Giả sử một chuyên gia marketing gợi ý em làm mô hình nghiên cứu khác: Kết quả ước lượng được ghi lại dưới đây:
Dependent Variable: TR
Method: Least Squares
Date: 03/31/09 Time: 13:06
Sample: 1 78
Included observations: 78
Variable Coefficient Std. Error t-Statistic Prob.
C 110.4641 4.351694 25.38417 0.0000
P -10.19792 1.629228 -6.259355 0.0000
A 3.360999 0.421288 7.977916 0.0000
A^2 -0.026755 0.014700 -1.820057 0.0728
R-squared 0.878548 Mean dependent var 122.6179
Adjusted R-squared 0.873624 S.D. dependent var 16.64927
S.E. of regression 5.918707 Akaike info criterion 6.444034
Sum squared resid 2592.301 Schwarz criterion 6.564890
Log likelihood -247.3173 F-statistic 178.4315
Durbin-Watson stat 1.973667 Prob(F-statistic) 0.000000
(Trong đó A^2 chính là trong mô hình nêu trên.)
52.Hệ số và là có lý
53.Mô hình hồi quy đơn có dạng: Ước lượng LS: và sai số ước lượng:
. Trong các phương trình dưới đây, phương trình nào là đúng?a.
b.
c.
d.
Trả lời: câu a và b đúng, vì đó là FOC cho beta 1 và beta 2 để ước lượng nhằm cực tiểu ESS.
54.Ước lượng LS cho kết quả:
, .
a. Hãy chỉ ra rằng, điểm nằm trên đường hồi quy. Trả lời: Điều này đã ghi trong giáo trình, Chương 2, công thức (2.12)
b. Giả sử . Hãy dùng đồ thị, chứng minh rằng, nếu tăng so với trung bình mẫu , thì cũng tăng so với
trung bình mẫu .
Trả lời: xem giáo trình, chương 2, đồ thị (2.6).55.Hãy chỉ ra rằng, phương pháp ước lượng LS là nhằm làm cực đại độ phù hợp .
Trả lời: Giáo trình, chương 2, công thức (2.19), LS tức là ESS -> min, hay cũng vậy R^2 -> max.56.Trong các phương trình dưới đây, phương trình nào là đúng?a.b.c.
Trả lời: a đúng. Và c. cũng đúng, vì
57.Chúng ta gọi là ước lượng không chệch, nếu . Hãy nói rõ giả thiết nào cần phải sử dụng để chứng minh ước lượng LS, , là ước lượng không chệch.Trả lời: Xem chương 3, công thức 3.3, và sử dụng giả thuyết
(diễn giải ở mục 3.3 Tiêu chuẩn thống kê… dẫn đến công thức (3.4))
58.Tại sao có thể nói là trung bình (kỳ vọng) của bình phương sai số ước lượng. Và nói rõ xem
lớn hay nhỏ thì là tốt? Nêu giả thuyết cơ bản nào em cần dung để chứng minh
Trả lời: tức là kỳ vọng của sai số ước lượng bình phương. Cái cuối cùng là do ước lượng
không chệch của beta^.
Về công thức , sử dụng giả thuyết epsilon p bố chuẩn với p sai sigma^ 2, và là iid, tức là
independent và identical (xem them ở công thức (3.5)).
59.Tại sao sai số chuẩn (standard error) tăng, thì khoảng tin cậy 90% (90% confidence interval) cũng
tăng? Điều đó là tốt hơn hay tồi hơn, nếu giảm.
Trả lời: Vì công thức CI là (3.7): . Nếu giảm thì tốt hơn, vì độ chính xác cao hơn, hay CI co hẹp
lại.
60.Giả sử ta cần kiểm định giả thuyết .vs. .
Chúng ta bác bỏ giả thuyết đó, ( ), nếu ,
và chúng ta sẽ không bác bỏ ( ), nếu .
Nếu chúng ta tăng mức độ có ý nghĩa từ 5% lên 10%, thì sẽ làm khả năng bác bỏ giả thuyết giả thuyết tăng lên hay giảm đi?
Trả lời: khi tăng mức độ có ý nghĩa từ 5% lên 10%, ta dễ bác bỏ Ho hơn.