hương 7 - vi.vnp.edu.vn

52
1 Chương 7 Chẩn đoán hồi quy: Các lỗi xác định dạng mô hình (Gujarati: Econometrics by example, 2011) 1 . Người dịch và diễn giải: Phùng Thanh Bình http://vnp.edu.vn/ C Một trong những giả định của mô hình hồi quy tuyến tính cổ điển là mô hình được sử dụng trong phân tích được xác định đúng. Thực vậy, đây là một đòi hỏi cao, vì không có một mô hình hoàn hảo như thế. Một mô hình kinh tế lượng cố gắng bao quát các đặc điểm chính yếu của một hiện tượng kinh tế, nhờ tham khảo lý thuyết kinh tế nền tảng, các nghiên cứu thực nghiệm trước đây, cảm nhận, và các kỹ năng nghiên cứu. Nếu chúng ta muốn đưa vào mọi yếu tố riêng lẻ có ảnh hưởng đến một đối tượng nghiên cứu cụ thể, thì mô hình sẽ quá phức tạp không có giá trị ứng dụng thực tế. Xác định đúng dạng mô hình có nghĩa là chúng ta đạt được một hoặc nhiều điều kiện sau đây: 1. Mô hình không loại trừ bất kỳ các biến ‘cốt lõi’ nào. 2. Mô hình không đưa vào các biến không cần thiết. 3. Dạng hàm của mô hình được chọn một cách phù hợp. 4. Không có các lỗi đo lường trong biến phụ thuộc và các biến giải thích. 5. Các quan sát bất thường trong dữ liệu, nếu có, đều được tính đến. 6. Phân phối xác suất của hạng nhiễu được xác định đúng. 7. Điều gì xảy ra nếu các biến giải thích là ngẫu nhiên? 8. Vấn đề phương trình đồng thời: chệch do tính đồng thời. Trong các phần sau, chúng ta thảo luận các hậu quả gì sẽ xảy ra nếu phạm phải một hoặc nhiều lỗi dạng mô hình, làm sao chúng ta có thể phát hiện, và các biện pháp chúng ta có thể thực hiện để khắc phục là gì. 7.1 Bỏ sót các biến thích hợp Chúng ta không có chủ đích bỏ sót các biến thích hợp ra khỏi mô hình. Nhưng đôi khi chúng bị bỏ sót bởi vì chúng ta không có sẵn dữ liệu, hoặc bởi vì chúng ta không nghiên cứu lý thuyết kinh tế nền tảng một cách cẩn thận, hoặc bởi vì chúng ta không nghiên cứu các nghiên cứu trước đây trong cùng lĩnh vực một cách thấu đáo, hoặc đôi khi chỉ bởi vì sự bất cẩn. Đây gọi là mô hình dưới mức phù hợp (underfitting model). Cho dù lý do gì, bỏ sót các biến ‘cốt lõi’ hoặc các biến quan trọng có những hậu quả sau đây 2 : 1 Hiện nay đã có ấn bản mới (lần 2, năm 2015). Dữ liệu của phiên bản 2011: https://www.macmillanihe.com/companion/Gujarati-Econometrics-By-Example/student-zone/ 2 Để biết thêm chi tiết, xem Gujarati/Porter, trang 471-3.

Upload: others

Post on 25-Oct-2021

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: hương 7 - vi.vnp.edu.vn

1

Chương 7

Chẩn đoán hồi quy: Các lỗi xác định dạng mô hình (Gujarati: Econometrics by example, 2011)1.

Người dịch và diễn giải: Phùng Thanh Bình

http://vnp.edu.vn/

C Một trong những giả định của mô hình hồi quy tuyến tính cổ điển là mô hình được sử dụng trong phân tích được xác định đúng. Thực vậy, đây là một đòi hỏi cao, vì không có một mô hình hoàn hảo như thế. Một mô hình kinh tế lượng cố gắng bao quát các đặc điểm chính yếu của một hiện tượng kinh tế, nhờ tham khảo lý thuyết kinh tế nền tảng, các nghiên cứu thực nghiệm trước đây, cảm nhận, và các kỹ năng nghiên cứu. Nếu chúng ta muốn đưa vào mọi yếu tố riêng lẻ có ảnh hưởng đến một đối tượng nghiên cứu cụ thể, thì mô hình sẽ quá phức tạp không có giá trị ứng dụng thực tế.

Xác định đúng dạng mô hình có nghĩa là chúng ta đạt được một hoặc nhiều điều kiện sau đây:

1. Mô hình không loại trừ bất kỳ các biến ‘cốt lõi’ nào. 2. Mô hình không đưa vào các biến không cần thiết. 3. Dạng hàm của mô hình được chọn một cách phù hợp. 4. Không có các lỗi đo lường trong biến phụ thuộc và các biến giải thích. 5. Các quan sát bất thường trong dữ liệu, nếu có, đều được tính đến. 6. Phân phối xác suất của hạng nhiễu được xác định đúng. 7. Điều gì xảy ra nếu các biến giải thích là ngẫu nhiên? 8. Vấn đề phương trình đồng thời: chệch do tính đồng thời.

Trong các phần sau, chúng ta thảo luận các hậu quả gì sẽ xảy ra nếu phạm phải một hoặc nhiều lỗi dạng mô hình, làm sao chúng ta có thể phát hiện, và các biện pháp chúng ta có thể thực hiện để khắc phục là gì.

7.1 Bỏ sót các biến thích hợp

Chúng ta không có chủ đích bỏ sót các biến thích hợp ra khỏi mô hình. Nhưng đôi khi chúng bị bỏ sót bởi vì chúng ta không có sẵn dữ liệu, hoặc bởi vì chúng ta không nghiên cứu lý thuyết kinh tế nền tảng một cách cẩn thận, hoặc bởi vì chúng ta không nghiên cứu các nghiên cứu trước đây trong cùng lĩnh vực một cách thấu đáo, hoặc đôi khi chỉ bởi vì sự bất cẩn. Đây gọi là mô hình dưới mức phù hợp (underfitting model). Cho dù lý do gì, bỏ sót các biến ‘cốt lõi’ hoặc các biến quan trọng có những hậu quả sau đây2:

1 Hiện nay đã có ấn bản mới (lần 2, năm 2015). Dữ liệu của phiên bản 2011: https://www.macmillanihe.com/companion/Gujarati-Econometrics-By-Example/student-zone/ 2 Để biết thêm chi tiết, xem Gujarati/Porter, trang 471-3.

Page 2: hương 7 - vi.vnp.edu.vn

2

1. Nếu các biến bị bỏ ra hoặc bị bỏ sót có tương quan với các biến được đưa vào mô hình, thì các hệ số của mô hình được ước lượng bị chệch. Không chỉ có thế, sự chệch này không biến mất khi cỡ mẫu tăng lên. Nói cách khác, các hệ số ước lượng của mô hình bị xác định sai vừa bị chệch vừa không nhất quán.

2. Thậm chí nếu các biến bị loại bỏ không đúng không tương quan với các biến trong mô hình, thì hệ số cắt của mô hình được ước lượng bị chệch.

3. Phương sai của hạng nhiễu 2 bị ước lượng sai. 4. Phương sai của các hệ số ước lượng của mô hình bị xác định sai bị chệch. Kết quả

là, các sai số chuẩn ước lượng cũng bị chệch. 5. Hậu quả là, các khoảng tin cậy thông thường và các thủ tục kiểm định giả thuyết

bị hoài nghi, dẫn đến các kết luận sai lầm về ý nghĩa thống kê của các tham số ước lượng.

6. Hơn nữa, các dự báo dựa trên mô hình bị sai và các khoảng dự báo dựa trên mô hình bị sai sẽ không đáng tin cậy.

Như bạn có thể thấy, các hậu quả của bỏ sót các biến thích hợp có thể rất nghiêm trọng.

Đương nhiên, chúng ta muốn tránh các hậu quả như thế. Bây giờ vấn đề là dễ dàng minh chứng các hậu quả của sai dạng mô hình nếu chúng ta được cho biết mô hình đúng là gì. Vì trong trường hợp đó, chúng ta có thể ước lượng mô hình được xác định đúng và so sánh kết quả này với kết quả của mô hình bị xác định sai. Nhưng điều này đưa chúng ta trở lại câu hỏi là mô hình được xác định đúng là gì? Tìm kiếm mộ mô hình được xác định đúng giống như đi tìm ‘Chén Thánh’ (Holy Grail).

Chúng ta bắt đầu từ đâu? Ngoài việc kỹ lưỡng khi xác định mô hình, điều tốt nhất mà chúng ta có thể làm là so sánh mô hình được chọn với một mô hình khác có thể là ứng viên cho việc xem xét, có lẽ một mô hình được đề xuất bởi các nhà bình duyệt.

[Diễn giải: Để hiểu các hậu quả nêu trên, chúng ta nên dành ít thời gian xem qua chứng minh sau đây].

Giả sử mô hình đúng có dạng như sau:

Yi = B1 + B2X2i + B3X3i + ui (1)

Tuy nhiên, vì lý do nào đó mà ta ước lượng mô hình sau đây:

Yi = b1 + b2X2i + *

iu

(2)

(Yi = B1 + B2X2i + u*i => u*

i = B3X3i + ui) (3)

giả sử rằng:

X3i = a0 + a1X2i + ei (4)

và ước lượng OLS với phương trình (2), ta có:

b2 = … = iiYk = B2 +*

iiuk (5)

[Xem Ôn tập Kinh tế lượng căn bản, Ôn tập # 1 để biết tại sao có (5)].

Page 3: hương 7 - vi.vnp.edu.vn

3

Thế (3) vào (5), ta có:

= B2 + + ]XBu[k i33ii

= B2 + + ]XkBuk i3i3ii (6)

Thế (4) vào (6), ta có:

= B2 + +++ ]Xaa[kBuk ii210i3ii

= B2 + +++ ]kBXkaBakBuk ii3i2i130i3ii

= B2 + +++ ]kB .1aB 0 uk ii313ii (7)

Lấy giá trị kỳ vọng của b2 từ phương trình (7), ta có:

E(b2) = B2 + 13aB (8)

Chỉ khi r23 = 0 (tức X2 và X3 độc lập) thì các ước lượng OLS sẽ không bị chệch (unbiased)

và phương sai của các ước lượng OLS không giảm.

True Var(b2) = −

2

i2

2

3.2

2

x)r1( ≥ false Var(b2) =

2

i2

2

x

B3 > 0 B3 < 0

a1 > 0 Chệch dương Chệch âm

a1 < 0 Chệch âm Chệch dương

Lưu ý: khi hoặc B3 = 0 hoặc a1 = 0, hoặc cả hai bằng 0 thì ước lượng OLS là ước lượng

không chệch.

Vì hệ số cắt b1 là một hàm theo b2 (và dĩ nhiên cũng là một hàm theo u*i), nên b2 chệch

thì b1 cũng bị chệch.

Một ví dụ minh họa: xem xét lại nhân tố quyết định tiền lương

Trong chương 1 chúng ta đã xem xét một mô hình về nhân tố quyết định tiền lương theo giờ, sử dụng dữ liệu CPS (Điều tra dân số hiện hành) năm 1995 với một mẫu gồm 1289 công nhân. Kết quả của mô hình đó được trình bày trong Bảng 1.2. Để tiện lợi cho việc so sánh, chúng ta trình bày lại kết quả này trong Bảng 7.1.

Bảng 7.1: Các nhân tố quyết định mức tiền lương theo giờ.

Page 4: hương 7 - vi.vnp.edu.vn

4

Bảng này chỉ xem xét giới tính, sắc tộc, tình trạng công đoàn, giáo dục và kinh nghiệm

như là những nhân tố quyết định tiền lương theo giờ. Nhưng theo kinh nghiệm phổ biến

thì tiền lương tăng khi kinh nghiệm làm việc tăng, khi giữ nguyên các biến khác không

đổi. Nhưng tiền lương tăng với một tốc độ chậm hơn hay nhanh hơn khi kinh nghiệm

tăng lên? Để cho phép khả năng này, chúng ta hãy mở rộng mô hình tiền lương như

trong Bảng 7.1 bằng cách đưa thêm biến giải thích kinh nghiệm bình phương vào mô

hình. Kết quả được trình bày trong Bảng 7.2.

Bảng 7.2: Hàm tiền lương mở rộng.

So sánh các kết quả này với kết quả trong Bảng 7.1, chúng ta thấy rằng biến kinh nghiệm

bình phương có ý nghĩa thống kê cao (giá trị xác suất p thực tế là bằng 0). Thật thú vị,

hệ số của biến kinh nghiệm bình phương mang dấu âm, nhưng biến kinh nghiệm mang

Page 5: hương 7 - vi.vnp.edu.vn

5

dấu dương. Điều này cho chúng ta biết rằng mặc dùn tiền lương tăng theo số năm kinh

nghiệm, nhưng tốc độ tăng giảm với kinh nghiệm làm việc nhiều hơn3.

Đối với các mục đích của chúng ta, dường như bỏ sót biến kinh nghiệm bình phương

khỏi mô hình trong Bảng 7.1 dẫn đến bị chệch do bỏ sót (các) biến thích hợp. Mặc dù

trong Bảng 7.2 từng hệ số đều có ý nghĩa thống kê (kiểm định t) và tất cả các hệ số đồng

thời có ý nghĩa thống kê (kiểm định F), nhưng các giá trị của các hệ số ước lượng trong

nhiều trường hợp khác một cách đáng kể so với kết quả trong Bảng 7.1. Điều này chứng

minh các điểm đã được đưa ra trước đây rằng trong các trường hợp giống như trường

hợp này thì các ước lượng OLS được cho trong Bảng 7.1 bị chệch.

Nhưng mô hình này có thể được điều chỉnh hơn nữa nếu bạn cho tương tác (tức là

nhân) biến kinh nghiệm với biến giới tính. Kết quả của mô hình được xác định lại này

được trình bày trong Bảng 7.3.

Bảng 7.3: Xác định lại mô hình tiền lương.

Bảng này cho thấy rằng hệ số của biến tương tác giữa giới tính và kinh nghiệm có ý nghĩa

thống kê rất cao. Giá trị âm của hệ số này cho biết rằng công nhân nữ kiếm ít hơn so với

các đồng nghiệp nam với cùng số năm kinh nghệm. Liệu rằng đây có phải là do phân

biệt giới tính hay không thì rất khó nói, mặc dù có lẽ đúng là như vậy.

Dường như rằng đáng để mở rộng mô hình gốc được cho trong Bảng 7.1 bằng cách đưa

thêm các biến kinh nghiệm bình phương và tương tác giới tính và kinh nghiệm vào mô

hình. Chúng ta có thể thiết lập điều này một cách chính thức bằng cách sử dụng kiểm

định F. Vì mục đích này, chúng ta gọi mô hình trong Bảng 7.1 là mô hình bị giới hạn

3 Khi giữ nguyên các biến khác không đổi, nếu bạn lấy đạo hàm của tiền lương theo kinh nghiệm, bạn sẽ có (sau khi làm tròn) dWage/dExper = 0.4245 – 0.0124Exper, điều này cho thấy tốc độ thay đổi của tiền lương theo kinh nghiệm giảm với tốc độ 0.0124 trên một năm kinh nghiệm làm việc tăng thêm.

Page 6: hương 7 - vi.vnp.edu.vn

6

(restricted model) và mô hình trong Bảng 7.3 là mô hình không bị giới hạn (unrestricted

model). Cho Rr2 và Rur

2 đại diện cho các giá trị R2 của mô hình bị giới hạn và mô hình

không bị giới hạn.

Bây giờ xem xét biểu thức sau đây:

(7.1)4

Trong đó, m = số ràng buộc (2 trong ví dụ của chúng ta, vì mô hình bị ràng buộc loại ra

hai biến), n = số quan sát, và k = số biến giải thích trong mô hình không bị ràng buộc (m

= [(n - k) – (n – k - 2) = 2]).

Thống kê F ở phương trình (7.1) theo phân phối F với m và (n - k) lần lượt là bậc tự do

trên tử và dưới mẫu.

Thế các giá trị thích hợp từ Bảng 7.1 và Bảng 7.3 vào, chúng ta có kết quả như sau đây:

Với 2 bậc tự do trên tử và 1.281 bậc tự do dưới mẫu, giá trị F này có ý nghĩa thống kê

cao, cho chúng ta biết rằng đáng đưa hai biến này vào mô hình gốc. Theo ý nghĩa này,

mô hình gốc bị xác định sai bởi vì mô hình đó đã bỏ sót hai biến thích hợp.

Một lần nữa lưu ý rằng khi chúng ta đi từ Bảng 7.1 đến 7.2, rồi 7.3, các hệ số của một

vài biến thay đổi đáng kể. Điều này khẳng định luận điểm đã được đưa ra trước đây

rằng nếu chúng ta bỏ sót các biến thích hợp ra khỏi một mô hình thì các hệ số trong mô

hình (xác định sai) bị chệch và không có sự đảm bảo rằng sự chệch này sẽ biến mất khi

cỡ mẫu tăng lên. Trong ví dụ của chúng ta, chúng ta có một cỡ mẫu tương đối lớn.

Quan sát thấy rằng giá trị R2 là 0.3403 trong mô hình mở rộng có thể không lớn hơn

nhiều so với giá trị R2 là 0.3233 trong mô hình gốc, nhưng đóng góp tăng thêm của hai

biến được đưa thêm vào là ý nghĩa về mặt thống kê, như kiểm định F cho chúng ta thấy.

4 Lưu ý rằng công thức được cho trong phương trình (7.1) chỉ có hiệu lực nếu biến phụ thuộc trong hai mô hình là giống nhau. Trong trường hợp này, kiểm định F trong phương trình (7.1) tương đương với kiểm định F trong phương trình (2.11). Nếu điều này không đúng, thì sử dụng kiểm định F trong phương trình (2.11). Cũng nên xem phương trình (1.18).

Page 7: hương 7 - vi.vnp.edu.vn

7

[Diễn giải: Thực hiện kiểm định ràng buộc trên Eviews và Stata.]

Page 8: hương 7 - vi.vnp.edu.vn

8

Page 9: hương 7 - vi.vnp.edu.vn

9

7.2 Các kiểm định bỏ sót biến

Mặc dù chúng ta đã minh họa các hậu quả của việc bỏ sót các biến thích hợp, nhưng

làm sao chúng ta biết được mô hình của mình bị chệch do bỏ sót biến? Có nhiều kiểm

định để phát hiện bỏ sót các biến thích hợp, nhưng ở đây chúng ta sẽ chỉ xem xét hai

kiểm định, đó là kiểm định RESET của Ramsey và kiểm định nhân tử Lagrane (ML)5.

Kiểm định RESET của Ramsey

Kiểm định sai dạng mô hình hồi quy của Ramsey (REgression Specification Error Test),

gọi tắt là RESET, là một kiểm định tổng quát các lỗi do sai dạng mô hình. Để giải thích

kiểm định này, một lần nữa chúng ta hãy trở lại mô hình nhân tố quyết định tiền lương.

Chúng ta thấy rằng trong mối quan hệ với Bảng 7.2 và 7.3, mô hình trong Bảng 7.1 là

mô hình bị xác định sai. Bây giờ không cần quan tâm đến kết quả trong các bảng khác,

chúng ta hãy tập trung vào kết quả trong Bảng 7.1.

Trước hết, chúng ta giải thích các bước liên quan đến kiểm định RESET và sau đó xem

xét nền tảng đằng sau nó.

1. Từ mô hình tiền lương ước lượng (sai) được cho trong Bảng 7.1, trước hết chúng

ta thu các giá trị ước lượng của tiền lương theo giờ, gọi là 𝑤𝑎𝑔��𝑖.

2. Ước lượng lại mô hình trong Bảng 7.1 bao gồm 𝑤𝑎𝑔𝑒𝑖2, 𝑤𝑎𝑔𝑒𝑖

3 (và có thể các

bậc cao hơn của tiền lương ước lượng) như các biến giải thích đưa thêm vào mô

hình.

3. Mô hình ban đầu trong Bảng 7.1 là mô hình bị giới hạn và mô hình trong bước 2

là mô hình không bị giới hạn.

4. Dưới giả thuyết H0 rằng mô hình bị giới hạn (tức mô hình gốc) là đúng, chúng ta

có thể sử dụng kiểm định F được cho trong phương trình (7.1). Thống kê F này

có m = 2 bậc tự do trên tử và (n - k) = (1289 - 8) = 1281 bậc tự do dưới mẫu, vì

trong hồi quy ở bước 2 chúng ta ước lượng 8 biến giải thích, kể cả hệ số cắt.

5. Nếu kiểm định F ở bước 4 có ý nghĩa thống kê, chúng ta bác bỏ giả thuyết H0.

Nghĩa là, mô hình bị giới hạn là không phù hợp trong trường hợp hiện tại. Cũng

như thế, nếu thốg kê F không có ý nghĩa thống kê, chúng ta không bác bỏ mô

hình gốc.

Ý tưởng đằng sau kiểm định này rất dơn giản. Nếu mô hình gốc được xác định đúng, thì

các giá trị của tiền lương ước lượng bình phương và các lũy thừa bậc cao hơn được đưa

thêm vào mô hình (tức là FITTED^2 và FITTED^3) sẽ không bổ sung bất cứ thứ gì vào

mô hình. Nhưng nếu một hoặc nhiều hệ số của các biến giải thích được đưa thêm có ý

nghĩa thống kê, thì đây là bằng chứng của sai dạng mô hình.

5 Để biết chi tiết hơn về các kiểm định này, xem Gujarati/Porter, trang 479-82.

Page 10: hương 7 - vi.vnp.edu.vn

10

[Diễn giải: Dĩ nhiên chúng ta không cần phải tạo biến mới. Nhưng nếu cần, thì cách tạo

FITTED trên Eviews như sau: ngay sau khi hồi quy Bảng 7.1, trên cửa sổ lệnh chúng ta

nhập GENR FITTED = WAGE - RESID].

Sử dụng Eviews, chúng ta có được kết quả như trong Bảng 7.4. Phát hiện quan trọng

của bảng này là giá trị F ước lượng bằng 20.12 có ý nghĩa thống kê cao; giá trị xác suất

p của nó thực tế bằng 0. Như bạn cũng có thể thấy, hệ số của các giá trị ước lượng bình

phương của tiền lương (tức FITTED^2) có ý nghĩa thống kê rất cao6.

Bảng 7.4: Kiểm định RASEY cho mô hình tiền lương.

[Diễn giải: Kiểm định RESET trên Eviews như sau: Sau khi hồi quy Bảng 7.1, chúng ta

vào View\Stability Diagnostics\Ramsey RESET Test …]

6 Ở đây, thống kê F quan trọng là giá trị F được cho trong kiểm định RESET Ramsey ở phần trên của bảng này.

Page 11: hương 7 - vi.vnp.edu.vn

11

[Diễn giải: Kiểm định RESET trên Stata]

• Nếu chỉ xét một biến FITTED2, thì chúng ta dùng lệnh estat ovtest:

• Nếu nhiều biến bình phương như FITTED2, FITTED3, … chúng ta phải tạo các biến

này sau khi hồi quy Bảng 7.1, rồi chạy hồi quy mô hình không bị giới hạn:

Page 12: hương 7 - vi.vnp.edu.vn

12

Mặc dù đơn giản để áp dụng, nhưng kiểm định RESET có hai nhược điểm. Thứ nhất, nếu

kiểm định cho thấy mô hình được chọn bị xác định sai, nó không gợi ý bất kỳ một mô

hình thay thế cụ thể nào khác. Thứ hai, kiểm định không đưa ra bất kỳ hướng dẫn nào

về số các số hạng lũy thừa của các giá trị ước lượng của biến phụ thuộc nên được đưa

vào mô hình không bị giới hạn. Không có câu trả lời xác định cho vấn đề này, mặc dù

trong thực tế chúng ta có thể tiến hành theo cách thử và sai và lựa chọn số các số hạng

lũy thừa trên cơ sở các tiêu chí thông tin như AIC và SIC.

Kiểm định nhân tử Lagrane (LM)

Chúng ta minh họa kiểm định này với ví dụ về mô hình tiền lương.

1. Từ mô hình gốc được cho trong Bảng 7.1, chúng ta thu phần dư ước lượng, ei.

Bảng 7.5: Kiểm định LM của mô hình tiền lương.

2. Nếu thực sự mô hình trong Bảng 7.1 là mô hình đúng, thì phần dư ei thu được từ

mô hình này không có liên quan gì với các biến giải thích bị bỏ sót từ mô hình đó,

chẳng hạn Exper2 và biến tương tác giữa giới tính và kinh nghiệm, female*exper.

3. Bây giờ chúng ta hồi quy ei theo các biến giải thích trong mô hình gốc và các biến

bị bỏ sót từ mô hình gốc. Gọi đây là hồi quy phụ (auxiliary regression), nghĩa là

bổ trợ cho hồi quy mô hình gốc.

4. Nếu cỡ mẫu lớn, chúng ta có thể thấy rằng n (cỡ mẫu) nhân với R2 thu được từ

hồi quy phụ theo phân phối Chi bình phương với số bậc tự do bằng với số biến

giải thích bị bỏ sót từ mô hình gốc; 2 bậc tự do trong trường hợp hiện tại của

chúng ta.

(tiệm cận)

Page 13: hương 7 - vi.vnp.edu.vn

13

Trong đó, m là số biến giải thích bị bỏ sót từ mô hình gốc.

5. Nếu giá trị Chi bình phương tính toán lớn hơn giá trị Chi bình phương phê phán

tại mức ý nghĩa được chọn, hoặc nếu giá trị xác suất p của nó đủ thấp, chúng ta

bác bỏ hồi quy gốc (tức mô hình bị giới hạn). Điều này nói lên rằng, mô hình gốc

bị xác định sai. Xem Bảng 7.5.

Vì thế, chúng ta có:

Với 2 bậc tự do, xác suất để có một giá trị Chi bình phương bằng hoặc lớn hơn 32.35 là

cực kỳ nhỏ, thực tế là bằng 0.

Trên cơ sở kiểm định LM, chúng ta có thể kết luận rằng mô hình gốc trong Bảng 7.1 bị

xác định sai, vì thế khẳng định lại kết luận của chúng ta dựa trên kiểm định RESET của

Ramsey. Nhớ rằng cỡ mẫu của chúng ta là 1289 quan sát là khá lớn để kiểm định LM

trong trường hợp này có hiệu lực.

[Kiểm định LM trên Eviews và Stata:]

Page 14: hương 7 - vi.vnp.edu.vn

14

Stata:

quietly reg wage female nonwhite union education exper

estimates store B

quietly reg wage female nonwhite union education exper expersq female_exper

estimates store M

Page 15: hương 7 - vi.vnp.edu.vn

15

7.3 Đưa các biến không thích hợp hoặc không cần thiết vào mô hình

Đôi khi những người nghiên cứu đưa thêm các biến với hy vọng rằng giá trị R2 của mô

hình sẽ tăng trong niềm tin sai lầm rằng R2 càng cao thì mô hình càng tốt. Đây được gọi

là mô hình trên mức phù hợp (overfitting model). Nhưng nếu các biến không có ý nghĩa

về mặt kinh tế và không thích hợp, thì chiến lược như thế không được khuyến khích bởi

vì các hậu quả sau đây7:

1. Các ước lượng OLS của mô hình bị xác định sai hoặc mô hình phù hợp quá mức

đều không chệch và nhất quán.

2. Phương sai của hạng nhiễu 2 được ước lượng đúng.

3. Khoảng tin cậy và các thủ tục kiểm định giả thuyết thông thường vẫn hiệu lực.

4. Tuy nhiên, các hệ số ước lượng của mô hình như thế nói chung là không hiệu quả

- nghĩa là, các phương sai của chúng sẽ lớn hơn các phương sai của mô hình đúng.

Lưu ý tính đối xứng của hai loại sai dạng mô hình – dưới mức phù hợp và trên mức phù

hợp. Trong trường hợp dưới mức phù hợp (tức bỏ sót biến quan trọng), thì các hệ số

hồi quy bị chệch và không nhất quán, phương sai của hạng nhiễu bị ước lượng sai, và

các thủ tục kiểm định giả thuyết trở nên không hiệu lực. Trong trường hợp trên mức

phù hợp (tức thừa biến không cần thiết), thì các hệ số ước lượng vẫn không chệch và

vẫn nhất quán, phương sai của hạng nhiễu được ước lượng đúng, và các thủ tục kiểm

định giả thuyết vẫn hiệu lực; cái giá duy nhất mà chúng ta phải trả cho việc đưa các biến

không phù hợp vào mô hình là các phương sai ước lượng, và vì thế là các sai số chuẩn

(của các hệ số hồi quy) thì tương đối lớn và vì thế các suy diễn xác suất (tức suy diễn

thống kê) về các tham số trở nên ít chính xác.

Bạn có thể bị cám dỗ đưa ra kết luận rằng tốt hơn là nên đưa các biến không cần thiết

(theo kiểu được gọi là cách tiếp cận bồn rửa chén [Diễn giải: Nghĩa là đưa hết các biến

vào mô hình rồi bỏ ra từ từ dựa vào giá trị xác suất của từng biến: loại bỏ biến có giá trị

7 Để biết chi tiết, xem Gujarati/Porter, trang 477-82.

Page 16: hương 7 - vi.vnp.edu.vn

16

xác suất p lớn nhất trước, ước lượng lại mô hình, rồi tiếp tục loại bỏ biến khác có giá trị

xác suất p cao, … cho đến khi cảm thấy mô hình đẹp] hơn là bỏ sót các biến thích hợp.

Triết lý như thế không được khuyến khích bởi vì đưa các biến không cần thiết không chỉ

dẫn đến giảm hiệu quả của các ước lượng (tức phương sai lớn hơn) mà còn có thể dẫn

đến vấn đề đa cộng tuyến, chưa kể mất số bậc tự do.

Ví dụ minh họa

Để có cái nhìn sơ bộ về vấn đề này, chúng ta hãy tiếp tục với ví dụ về nhân tố quyết định

tiền lương bằng cách đưa vào mô hình trong Bảng 7.1 biến ‘tuổi của công nhân’. Chúng

sẽ không chạy hồi quy này bởi vì tương quan gần như hoàn hảo giữa tuổi và kinh nghiệm

làm việc. Điều này là bởi vì biến ‘kinh nghiệm làm việc’ được định nghĩa là bằng tuổi trừ

số năm đi học trừ 68. Điều này có thể được xác nhận bằng cách hồi quy kinh nghiệm làm

việc theo biến tuổi, như kết quả được trình bày trong Bảng 7.6.

Bảng 7.6: Hồi quy kinh nghiệm làm việc theo tuổi.

Như bạn có thể thấy, hai biến này tương quan rất cao, hệ số tương quan giữa chúng là

0.9705 (= căn bậc hai của 0.942016).

Bài tập này gợi ra rằng chúng ta có thể đưa biến tuổi hoặc kinh nghệm làm việc như một

biến giải thích, nhưng không thể đưa cả hai.

[Diễn giải: Hậu quả của đưa các biến không thích hợp vào mô hình]

Giả sử mô hình đúng có dạng như sau:

Yi = B1 + B2X2i + ui (1)

Tuy nhiên, vì lý do nào đó mà ta ước lượng mô hình sau đây:

Yi = b1 + b2X2i + b3X3i + u*i (2)

(Yi = B1 + B2X2i + B3X3i + ui

8 Giả định rằng đi học bắt đầu lúc 6 tuổi.

Page 17: hương 7 - vi.vnp.edu.vn

17

=> u*i = ui - B3X3i) (3)

Giả sử rằng: B3 = 0

Do B3 = 0, nên u*i = ui, => E(b2) = B2 (Nghĩa là, ước lượng không chệch).

Tuy nhiên, nếu X3i có tương quan với X2i thì

True Var(b2) =

2

i2

2

x≤ false Var(b2) =

2

i2

2

3.2

2

x)r1(

Như vậy, thừa biến không thích hợp không làm chệch các ước lượng OLS. Tuy nhiên,

điều này có thể làm tăng phương sai (và vì thế các sai số chuẩn) của các ước lượng OLS,

và vì thế là tăng khả năng chấp nhận giả thiết H0.

7.4 Xác định sai dạng hàm của mô hình hồi quy

Trong chương 2, về dạng hàm của các mô hình hồi quy, chúng ta đã thảo luận sự lựa

chọn giữa các hàm sản xuất tuyến tính và log-tuyến tính (tức hàm Cobb-Douglas). Trong

cả hai trường hợp, chúng ta có dữ liệu về xuất lượng (đo bằng GDP), nhập lượng lao

động (đo bằng số giờ làm việc), và nhập lượng vốn (đo bằng chi tiêu vốn) của 50 bang ở

Mỹ và thủ đô Washington, năm 1995. Ở đó, chúng ta đã thảo luận thủ tục tổng quát để

so sánh các mô hình. Ở đây, chúng ta sẽ thảo luận nó với việc tham khảo mô hình nhân

tố quyết định tiền lương.

Trong kinh tế học lao động, những người nghiên cứu thường chọn log của tiền lương

làm biến phụ thuộc. Điều này là bởi vì phân phối của tiền lương trong tổng thể thường

bị nghiêng, với nhiều công nhân ở phần thấp của phân phối (tức đa số có mức tiền lương

thấp) và một số ít ở phần cao của phân phối (tức số ít có mức lương rất cao). Trái lại,

phân phối của log tiền lương có xu hướng đối xứng hơn và nó cũng có phương sai đồng

nhất (xem lại Hình 3.1 và 3.2).

Đối với ví dụ về tiền lương của chúng ta, mô hình nào tốt hơn: tuyến tính hay log-tuyến

tính? Chúng ta đã có các kết quả của mô hình tuyến tính trong Bảng 7.3. Bảng 7.7 trình

bày kết quả của mô hình log.

Tất cả các biến giải thích riêng lẻ đều có ý nghĩa thống kê cao, vì các thống kê t có các

giá trị xác suất p rất thấp. Các biến này cũng đồng thời có ý nghĩa thống kê cao, vì giá trị

F khoảng 109 có một giá trị xác suất p thực tế bằng 0.

Dĩ nhiên, cách giải thích các hệ số trong Bảng 7.7 khác so với cách giải thích trong Bảng

7.3 bởi vì các biến phụ thuộc trong hai mô hình là khác nhau. Ví dụ, hệ số 0.0948 cho

biết rằng nếu số năm đi học tăng thêm một năm, thì tiền lương theo giờ trung bình tăng

khoảng 9.48% khi giữ nguyên các biến khác không đổi. (Nhớ lại cách giải thích của mô

hình bán log được thảo luận ở chương 2). Chúng ta để cho bạn đọc tự giải thích các hệ

số khác trong bảng này.

Page 18: hương 7 - vi.vnp.edu.vn

18

Bảng 7.7: Các nhân tố quyết định log của tiền lương.

Mô hình nào tốt hơn: mô hình tuyến tính ở Bảng 7.3 hay mô hình log-tuyến tính ở Bảng

7.7?

Đối với mô hình tuyến tính, R2 khoảng 0.34 và đối với mô hình log-tuyến tính, R2 là 0.37.

Nhưng chúng ta không thể so sánh hai giá trị R2 này bởi vì các biến phụ thuộc trong hai

mô hình là khác nhau. Vậy làm sao chúng ta so sánh hai mô hình này?

Chúng ta theo các bước đã phát họa ở chương 2 (để ngắn gọn, chúng ta dùng W đại

diện cho mức tiền lương).

1. Chúng ta tính trung bình hình học của tiền lương, giá trị trung bình này là 10.4069.

2. Chúng ta tạo một biến mới W*i = Wi/10.406, nghĩa là, chúng ta chia tiền lương

cho trung bình hình học của tiền lương.

3. Chúng ta ước lượng lại mô hình trong Bảng 7.3 sử dụng W*i thay vì Wi như biến

phụ thuộc và lưu RSS (tổng bình phương phần dư) từ hồi quy này, gọi là RSS1.

4. Chúng ta ước lượng lại mô hình trong Bảng 7.7 sử dụng lnW*i thay vì lnWi như

biến phụ thuộc và lưu RSS từ hồi quy này, gọi là RSS2.

5. Chúng ta tính:

Lưu ý: Đặt RSS lớn hơn ở tử số.

9 Trung bình hình học GM = (W1.W2. … W1289)1/1289 = 10.406 trong ví dụ hiện tại của chúng ta.

Page 19: hương 7 - vi.vnp.edu.vn

19

Nghĩa là, biểu thức ở vế trái của phương trình (7.5) theo phân phối Chi bình phương với

một bậc tự do. Nếu giá trị Chi bình phương được tính từ phương trình (7.5) có ý nghĩa

thống kê, chúng ta có thể kết luận rằng mô hình với RSS thấp hơn là mô hình tốt hơn.

Để tiết kiệm không gian, chúng ta sẽ không tạo ra tất cả các kết quả, ngoại trừ việc lưu

ý rằng trong tình huống hiện tại, RSS1 = 489.2574 và RSS2 = 277.6474. Như vậy chúng ta

có:

Page 20: hương 7 - vi.vnp.edu.vn

20

Giá trị Chi bình phương với một bậc tự do này là quá lớn để chúng ta có thể tự tin kết

luận rằng mô hình log-tuyến tính trong Bảng 7.7 tốt hơn so với mô hình tuyến tính trong

Bảng 7.3.

Kết luận ở đây là dạng hàm của hàm tiền lương trong Bảng 7.3 bị xác định sai.

7.5 Các lỗi đo lường

Một trong những giả định của mô hình hồi quy tuyến tính cổ điển là mô hình được sử

dụng trong phân tích được xác định đúng. Mặc dù không nói rõ ra, nhưng giả định này

cho rằng các giá trị của biến phụ thuộc cũng như các biến giải thích là chính xác. Nghĩa

là, chúng không phải là các giá trị ước tính phỏng đoán, ngoại suy, nội suy hoặc làm tròn

theo bất kỳ một cách có hệ thống nào hoặc được ghi chép với những sai sót.

Tuy nhiên, điều lý tưởng này rất không thường được thỏa mãn trong thực tế vì nhiều lý

so, chẳng hạn như các lỗi do không trả lời, các lỗi báo cáo, thiếu dữ liệu, hoặc các lỗi

không kiểm soát của con người. Cho dù bất kỳ lý do sai sót nào, thì các lỗi do đo lường

tạo ra một sự chệch do xác định sai dạng mô hình khác, điều này có nhiều hậu quả

nghiêm trọng, đặc biệt nếu có các sai sót đó trong các biến giải thích.

Các lỗi đo lường trong biến phụ thuộc

Mặc dù chúng ta sẽ không chứng minh ở đây, nhưng nếu có các lỗi do đo lường trong

biến phụ thuộc, thì chắc chắn sẽ có các hậu quả sau đây10:

1. Các ước lượng OLS vẫn không chệch.

2. Các phương sai và sai số chuẩn của các ước lượng OLS vẫn không chệch.

3. Nhưng các phương sai ước lượng, và vì thế bản thân các sai số chuẩn, lớn hơn

khi không có các lỗi như thế.

Tóm lại, các lỗi đo lường trong biến phụ thuộc không phải là một đe dọa rất nghiêm

trọng đến ước lượng OLS.

Lỗi đo lường trong các biến giải thích

Trường hợp này thì nghiêm trọng hơn, vì các sai sót đo lường trong các biến giải thích

làm cho các ước lượng OLS bị chệch cũng như không nhất quán11. Thậm chí các sai sót

chỉ trong một biến giải thích riêng lẽ có thể dẫn đến các giá trị ước lượng của các hệ số

hồi quy của các biến giải thích khác trong mô hình bị chệch và không nhất quán. Và

không dễ dàng thiết lập độ lớn và chiều hướng của sự thiên lệch (chệch) trong các hệ

số hồi quy.

Chúng ta thường được đề xuất sử dụng các biến công cụ (instrumental variables) hoặc

các biến đại diện (proxy variables) cho các biến bị nghi ngờ có sai sót trong đo lường.

Các biến đại diện phải thỏa mãn hai yêu cầu – (1) chúng có tương quan cao với các biến

10 Để biết chi tiết, xem Gujarati/Porter, trang 482-3. 11 Để biết chi tiết, xem Gujarati/Porter, trang 483-6.

Page 21: hương 7 - vi.vnp.edu.vn

21

mà chúng là một đại diện và (2) chúng không tương quan với hạng nhiễu ui thông

thường cũng như không tương quan với phần sai sót. Nhưng những biến đại diện như

thế không dễ tìm, nên chúng ta thường ở trong tình huống kiểu như phàn nàn về thời

tiết xấu mà không thể giải quyết được gì. Vì thế cách khắc phục này có thể không phải

luôn luôn có sẵn. Tuy nhiên, bởi vì việc sử dụng phổ biến các biến công cụ trong nhiều

lĩnh vực của kinh tế lượng ứng dụng, nên chúng ta sẽ thảo luận chủ đề này kỹ hơn ở

chương 1912.

Tất cả những điều mà chúng ta có thể nói về các lỗi đo lường, cả trong biến phụ thuộc

và trong các biến giải thích là chúng ta nên rất cẩn thận trong việc thu thập dữ liệu và

đảm bảo rằng một số lỗi sai sót hiễn nhiên được loại bỏ.

7.6 Các giá trị bất thường, dữ liệu đòn bẩy và có ảnh hưởng

Trong chương 1 chúng ta đã thảo luận các vấn đề cơ bản của mô hình hồi quy tuyến

tính. Bạn có thể nhớ lại rằng khi tối thiểu tổng bình phương phần dư (RSS) để ước lượng

các tham số hồi quy, OLS gán trọng số ngang nhau cho mỗi quan sát trong mẫu dữ liệu.

Nhưng điều này có thể gây ra nhiều vấn đề nếu chúng ta có các quan sát có thể không

‘điển hình’ như phần còn lại của mẫu dữ liệu. Các quan sát, hoặc các điểm dữ liệu, như

thế được biết với tên gọi là các quan sát bất thường (outliers), các điểm dữ liệu đòn bẩy

[leverage points – các điểm dữ liệu quan trọng có ảnh hưởng nhiều đến việc ước lượng]

hoặc có ảnh hưởng (leverage or influence points). Điều quan trọng là chúng ta cần biết

chúng là những quan sát nào, chúng có ảnh hưởng ra sao đến kết quả hồi quy, và làm

sao để phát hiện ra chúng.

▪ Các quan sát bất thường: Trong ngữ cảnh phân tích hồi quy, một quan sát bất

thường là một quan sát với một phần dư lớn (ei), lớn so với các phần dư của các

quan sát còn lại. Trong một hồi quy hai biến (bivariate regression), thì dễ để

phát hiện các phần dư lớn như thế bởi vì khoảng cách khá lớn theo chiều đứng

so với đường hồi quy ước lượng. Nhớ rằng có thể có nhiều hơn một quan sát

bất thường. Bạn cũng có thể xem xét giá trị bình phương của ei, vì nói tránh vấn

đề về dấu – các phần dư có thể dương hoặc âm.

▪ Đòn bẩy: Một quan sát được gọi là gây ra đòn bẩy (cao) nếu nó cách xa một cách

không tương xứng so với phần lớn các quan sát của mẫu. Trong trường hợp này,

một (hoặc các) quan sát như thế có thể kéo đường hồi quy về phí nó, có thể làm

biến dạng hệ số độ dốc của đường hồi quy.

▪ Điểm ảnh hưởng: Nếu một quan sát đòn bảy thực sự kéo đường hồi quy về phía

nó, thì nó được gọi là điểm ảnh hưởng. Loại bỏ một điểm dữ liệu như thế ra khỏi

mẫu có thể là thay đổi đáng kể hệ số độ dốc của đường hồi quy ước lượng.

12 Để thấy thú vị, nhưng hơi nâng cao, bạn nên tham khảo thảo luận về chủ đề này trong Joshua D. Angrist and Jorn-Steffen Pischke, Mostly Harmless Econometrics: An Empiricist’s Companion, Princeton University Press, Princeton, NJ, 2009, Chapter 4.

Page 22: hương 7 - vi.vnp.edu.vn

22

Để minh họa một vài điểm này, hãy xem xét dữ liệu được cho trong Table 7.8, dữ liệu

này có thể được tìm thấy trên trang web của cuốn sách.

Bảng này là dữ liệu về số lượng thuốc hút bình quân đầu người (đơn vị tính là 100), và

số tử vong do ung thư bang quang, ung thư phổi, thận và bạch cầu (trên 100.000 dân

số) của 43 bang và thủ đô Washington, năm 1960.

Để minh họa vấn đề quan sát bất thường, chúng ta hồi quy số tử vong do ung thư phổi

theo số lượng thuốc lá đã hút. Kết quả được trình bày trong Bảng 7.9.

Bảng 7.9: Số người chết do ung thư phổi và số thuốc lá đã hút.

Không áp dụng nhân quả, dường như rằng có mối quan hệ dương giữa số tử vong do

ung thư phổi và số lượng thuốc là đã hút. Nếu chúng ta tăng số thuốc là đã hút thêm 1

đơn vị, thì số tử vong do ung thư phổi trung bình tăng khoảng 0.54 đơn vị.

Phát hiện các giá trị bất thường

Một cách đơn giản để phát hiện các giá trị bất thường là vẽ đồ thị phần dư và phần dư

bình phương từ mô hình hồi quy ước lượng. Một sự xem xét kỹ đồ thị sẽ là một phương

pháp nhanh chóng để phát hiện các giá trị bất thường, mặc dù có thể điều đó không

phải luôn luôn đúng mà không cần phân tích sâu hơn.

Đối với hồi quy ung thư phổi, chúng ta có được Hình 7.1. Hình này cho thấy có một định

lớn trong phần dư và phần dư bình phương tại quan sát 25, tiếp theo là các định tương

đối nhỏ hơn tại các quan sát 7, 15, và 32. Quan sát 25 là của Nevada và quan sát số 7 là

của thủ đô Washington. Hút thuốc dường như phổ biến hơn ở hai bang này, có thể bởi

vì đây là những nơi có ngành du lịch phát triển.

Page 23: hương 7 - vi.vnp.edu.vn

23

Hình 7.1: Phần dư và phần dư bình phương của hồi quy trong Bảng 7.9.

Xem xét quan sát của bang Nevada. Giá trị trung bình của lượng thuốc lá tiêu thụ trong

mẫu là khoảng 24.8 và độ lệch chuẩn khoảng 5.62. Giá trị của bang Nevada là 42.4,

khoảng gấp 3.13 lần sai số chuẩn ở trên trung bình mẫu. Có lẽ giá trị của bang Nevada

là một quan sát bất thường.

Sự thật rằng một quan sát là quan sát bất thường không nhất thiết có nghĩa là một đòn

bẩy cao hoặc một điểm có ảnh hưởng. Đối với một điểm dữ liệu có ảnh hưởng, thì việc

loại bỏ nó ra khỏi mẫu phải làm thay đổi đáng kể các kết quả hồi quy (hệ số độ dốc và

sai số chuẩn, …). Một cách để nhận ra điều này là xem các kết quả hồi quy thay đổi như

thế nào nếu chúng ta bỏ quan sát của bang Nevada.

Nếu bạn so sánh các hệ số hồi quy trong Bảng 7.9 và 7.10, bạn sẽ thấy rằng cả hệ số cắt

và các hệ số độ dốc đã thay đổi đáng kể trong hai bảng, có lẽ gợi cho chúng ta rằng quan

sát của bang Nevada là một điểm có ảnh hưởng.

Có nhiều cách khác để phát hiện các điểm đòn bẩy và đểm có ảnh hưởng, nhưng các

cách này hơi phức tạp và đòi hỏi sử dụng đại số ma trận13. Tuy nhiên, Stata có một thủ

tục tính toán một thước đo đòn bẩy cho mỗi quan sát riêng lẻ trong mẫu.

Có những cách khác để phát hiện các giá trị bất thường, chẳng hạn như phương pháp

bình phương bé nhất đệ quy (recursive least squares) và phần dư đệ quy (recursive

13 Một thảo luận có thể tiếp cận là Samprit Chatterjee and Ali S. Hadi, Regression Analysis by Example, 4th edn, Wiley, New Jersey, 2006, chapter 4.

Page 24: hương 7 - vi.vnp.edu.vn

24

residuals), nhưng thảo luận các phương pháp này sẽ dẫn chúng ta đi quá xa ra ngoài

phạm vi cuốn sách, nên chúng ta sẽ không theo đuổi chúng ở đây14.

Bảng 7.10: Kết quả hồi quy không có bang Nevada.

Mục tiêu của chúng ta khi thảo luận chủ đề các giá trị bất thường là muốn cảnh báo

người làm nghiên cứu phải cẩn thận về chúng, bởi vì các giá trị OLS có thể bị ảnh hưởng

nghiêm trọng bởi các quan sát bất thường, đặc biệt nếu chúng là các điểm có ảnh

hưởng.

[Diễn giải: Hướng dẫn hồi quy Bảng 7.10 trên Stata và Eviews]

14 Xem, ví dụ, Chatterjee and Hadi, … trang 103-8.

Page 25: hương 7 - vi.vnp.edu.vn

25

[Diễn giải: Cách phát triển giá trị bất thường trên Stata]

quietly reg lung cig

avplot cig

-10

-50

510

e(

lung

| X

)

-10 0 10 20e( cig | X )

coef = .54207609, se = .08193879, t = 6.62

Page 26: hương 7 - vi.vnp.edu.vn

26

rvfplot, yline(0)

lvr2plot, mlabel(obs)

lvr2plot, mlabel(cig)

-10

-50

510

Re

sid

ua

ls

15 20 25 30Fitted values

1

2

3

4

5

6

7

89

1011 1213

1415

16

1718 1920

21

2223 24

25

262728 29

3031 32

33

34

3536

37

38

394041

42

43

0

.05

.1.1

5.2

.25

Le

vera

ge

0 .05 .1 .15Normalized residual squared

18.2

25.82

18.24

28.6

31.1

33.6

40.46

28.2720.1

27.9126.1822.1221.84

23.4421.58

28.92

25.9126.92 24.9622.06

16.08

27.5623.75 23.32

42.4

28.6421.1629.14 19.96

26.3823.44 23.78

29.18

18.06

20.9420.08

22.57

14

25.8921.1721.25

22.86

30.34

0

.05

.1.1

5.2

.25

Le

vera

ge

0 .05 .1 .15Normalized residual squared

Page 27: hương 7 - vi.vnp.edu.vn

27

7.7 Phân phối xác suất của hạng nhiễu

Mô hình hồi quy tuyến tính chuẩn cổ điển (CNLRM), một mở rộng của mô hình CLRM,

giả định rằng hạng nhiễu, ui, trong mô hình hồi quy theo phân phối chuẩn15. Giả định

này rất quan trọng nếu cỡ mẫu là tương đối nhỏ, vì các kiểm định ý nghĩa được sử dụng

phổ biến, như t và F, được dựa trên giả định phân phối chuẩn.

Vì thế điều quan trọng là chúng ta cần kiểm tra để xem hạng nhiễu có phân phối chuẩn

hay không. Có nhiều kiểm định phân phối chuẩn, nhưng kiểm định được sử dụng phổ

biến nhất là kiểm định JB (Jarque-Bera) về phân phối chuẩn. Trước khi chúng ta trình

bày kiểm định này, điều quan trọng cần nhớ là kiểm định JB là một kiểm định mẫu lớn

và có thể không thích hợp trong các mẫu nhỏ. Công thức của kiểm định JB như sau:

Trong đó, n là cỡ mẫu, S = hệ số độ nghiêng, và K = hệ số độ nhọn16. Đối với một biến

có phân phối chuẩn thì S = 0 và K = 3. Rõ ràng từ thống kê JB chúng ta thấy rằng nếu S

= 0 và K = 3 thì giá trị JB bằng 0. Vì thế, giá trị JB càng gần 0 thì giả định phân phối chuẩn

càng tốt (tức giả định càng đúng). Dĩ nhiên, chúng ta có thể luôn luôn sử dụng phân

phối Chi bình phương để biết ý nghĩa thống kê chính xác (tức giá trị thống kê p) của

thống kê JB.

Vì trong thực tế chúng ta không quan sát được hạng nhiễu thực, nên chúng ta sử dụng

đại diện của nó, tức là phần dư ei. Giả thuyết H0 là giả thuyết đồng thời (joint hypothesis)

cho rằng S = 0 và K = 3. Jarque và Bera chỉ ra rằng thống kê được cho trong phương trình

(7.7) theo phân phối Chi bình phương với 2 bậc tự do. Có hai bậc tự do bởi vì chúng ta

đang áp đặt hai ràng buộc, đó là, S = 0 và K = 3. [Diễn giải: Công thức JB là một tổng của

hai giá trị bình phương của S và K, hai giá trị này là hai biến ngẫu nhiên có phân phối

chuẩn. Cho nên JB là một biến theo phân phối Chi bình phương và số bậc tự do đúng

bằng số số hạng trong tổng của JB, tứ là 2 số hạng].

Vì thế, nếu trong một ứng dụng, thống kê JB tính toán (tức thống kê JB) lớn hơn giá trị

Chi bình phương phê phán, ví dụ, ở mức ý nghĩa 5%, thì chúng ta bác bỏ giả thuyết cho

rằng hạng nhiễu có phân phối chuẩn.

15 Lưu ý rằng giả định phân phối chuẩn gắn liền với hạng nhiễu, ui, trong hồi quy tổng thể chứ không phải phần dư, ei, trong hồi quy mẫu, mặc dù chúng ta sử dụng phần dư để hiểu biết về hạng nhiễu. Điều này là bởi vì trong thực tế chúng ta không bao giờ quan sát được ui. 16 Chỉ vì phương sai của một biến ngẫu nhiên là mô men thứ hai về giá trị trung bình của biến, độ nghiên là mô men thứ ba, và độ nhọn là mô mên thứ tư, tất cả được đo từ giá trị trung bình. Độ nghiêng là một thước đo đối xứng và độ nhọn là một thước đo độ cao hoặc độ lài của phân phối xác suất.

Page 28: hương 7 - vi.vnp.edu.vn

28

Kiểm định JB của ví dụ hút thuốc và bệnh ung thư phồi.

Quay lại ví dụ hút thuốc và ung thư phổi của chúng ta, thống kê JB cho phần dư đối với

hồi quy trong Bảng 7.9 là 3.05, với một giá trị xác suất p khoảng 0.21, và đối với Bảng

7.10 thì thống kê JB là 3.83 với một giá trị xác suất p là 0.46. Cả hai giá trị này cho thấy

rằng giả định phân phối chuẩn của hạng nhiễu có thể là thích hợp trong cả hai mô hình,

mặc dù số quan sát là (42 và 43) không phải là đặc biệt lớn.

[Diễn giải: Kiểm định JB với Stata]

Kiểm định JB cho mô hình nhân tố quyết định tiền lương

Trong mô hình tiền lương dạng tuyến tính trong Bảng 7.3, thống kê JB của phần dư

khoảng 4.130, một con số rất lớn, với một giá trị xác suất p thực tế bằng 0. Đối với mô

hình tiền lương dạng log-tuyến tính trong Bảng 7.7, thống kê JB của phần dư cũng lớn,

khoảng 302, với một giá trị xác suất p hầu như bằng 017. Sử dụng thống kê JB trong cả

hai trường hợp có thể thích hợp bởi vì chúng ta có một mẫu khá lớn với 1.289 quan sát.

Trên cơ sở thống kê JB, rất khó để cho rằng hạng nhiễu trong hồi quy tiền lương theo

phân phối chuẩn.

Thật thú vị để lưu ý rằng phân phối của tiền lương là không chuẩn rất cao (highly non-

normal), với S bằng 1.84 và K bằng 7.83 (nên thống kê JB khoảng 1900). Trái lại, phân

phối của log tiền lương là chuẩn, với S = 0.1 và K = 3.2 (nên thống kê JB chỉ là 2.8).

17 Đối với mô hình tiền lương tuyến tính trong Bảng 7.3, S = 2 và K = 10.79, và đối với mô hình tiền lương dạng log trong Bảng 7.7, thì S = -0.44 và K = 5.19. Trong cả hai trường hợp thì các thước đo S và K khác xa so với các giá trị chuẩn lần lượt là 0 và 3.

Page 29: hương 7 - vi.vnp.edu.vn

29

[Diễn giải: Thống kê JB trên Eviews]

020406080

100120140160180200220240260280300

0 10 20 30 40 50 60

Series: WAGESample 1 1289Observations 1289

Mean 12.36585Median 10.08000Maximum 64.08000Minimum 0.840000Std. Dev. 7.896350Skewness 1.848114Kurtosis 7.836565

Jarque-Bera 1990.134Probability 0.000000

0153045607590

105120135150165180195210

0 1 2 3 4

Series: LNWAGESample 1 1289Observations 1289

Mean 2.342416Median 2.310553Maximum 4.160132Minimum -0.174353Std. Dev. 0.586356Skewness 0.013395Kurtosis 3.226337

Jarque-Bera 2.789947Probability 0.247840

Hạng nhiễu không phân phối chuẩn

Nếu hạng nhiễu ui không theo phân phối chuẩn, chúng ta có thể nói rằng các ước lượng

OLS vẫn là các ước lượng tuyến tính không chệch tốt nhất (BLUE); nghĩa là, chúng không

bị chệch và trong số các ước lượng tuyến tính thì chúng có phương sai bé nhất. Đây

không phải là một phát hiện ngạc nhiên, vì khi thiết lập tính chất BLUE (nhớ lại Định lý

Gauss-Markov) chúng ta đã không cần đến giả định phân phối chuẩn.

Vậy vấn đề là gì? Vấn đề là đối với mục đích kiểm định giả thuyết, chúng ta cần các phân

phối mẫu hoặc phân phối xác suất của các ước lượng OLS. Các kiểm định t và F mà chúng

ta sử dụng thì tất cả giả định rằng phân phối xác suất của hạng nhiều theo phân phối

chuẩn. Nhưng nếu giả định đó không thỏa, thì chúng ta sẽ dựa vào lý thuyết tiệm cận

hoặc mẫu lớn.

Không cần đi vào các chi tiết kỹ thuật, dưới các giả định của CLRM (chứ không phải

CNLRM) trong các mẫu lớn, thì các ước lượng OLS không chỉ nhất quán (nghĩa là chúng

hội tụ về các giá trị thực của chúng khi cỡ mẫu tăng lên vô cùng), mà còn theo phân

phối tiệm cận phân phối chuẩn (asymptotically normally distributed) với các trung bình

Page 30: hương 7 - vi.vnp.edu.vn

30

và phương sai thông thường như đã được thảo luận ở chương 1. Thật thú vị, các kiểm

định t và F mà chúng ta đã sử dụng rất nhiều cho đến giờ cũng xấp xỉ hiệu lực trong các

mẫu lớn, xấp xỉ là khá tốt, khi cỡ mẫu tăng lên vô cùng.

Vì thế, mặc dù thống kê JB cho thấy rằng các hạng nhiễu trong cả mô hình tiền lương

dạng tuyến tính và mô hình tiền lương dạng log-tuyến tính có thể không theo phân phối

chuẩn, nhưng chúng ta vẫn có thể sử dụng các kiểm định t và F bởi vì cỡ mẫu của chúng

ta với 1.289 quan sát là khá lớn.

7.8 Các biến giải thích ngẫu nhiên

Mô hình hồi quy tuyến tính cổ điển, như được thảo luận ở chương 1, giả định rằng biến

phụ thuộc là ngẫu nhiên nhưng các biến giải thích là phi ngẫu nhiên hoặc cố định – nghĩa

là, chúng ta giữ nguyên các giá trị của các biến giải thích cố định và rút nhiều mẫu ngẫu

nhiên của biến phụ thuộc. Ví dụ, trong hồi quy chi tiêu cho tiêu dùng theo thu nhập,

chúng ta giả định các mức thu nhập được giữ cố định tại các giá trị nhất định và sau đó

rút các mẫu ngẫu nhiên những người tiêu dùng tại các mức thu nhập cố định và ghi chú

lại mức chi tiêu cho tiêu dùng của họ. Trong phân tích hồi quy, mục tiêu của chúng ta là

dự đoán chi tiêu cho tiêu dùng trung bình tại nhiều mức thu nhập cố định khác nhau.

Nếu chúng ta nối các mức chi tiêu cho tiêu dùng trung bình, thì đường (hoặc đường

cong) được vẽ thể hiện đường (đường cong) hồi quy mẫu.

Mặc dù giả định về các biến giải thích cố định có thể có hiệu lực trong nhiều tình huống

kinh tế, nhìn chung nó không thể giữ vững cho tất cả các dữ liệu kinh tế. Nói cách khác,

chúng ta giả định rằng cả Y (biến phụ thuộc) và các X (các biến giải thích) được rút một

cách ngẫu nhiên. Đây là trường hợp về các biến giải thích ngẫu nhiên. Câu hỏi quan

trọng nảy sinh là liệu rằng các kết quả phân tích hồi quy dựa trên các biến giải thích cố

định cũng đúng nếu các biến giải thích cũng ngẫu nhiên như biến phụ thuộc? Mặc dù

một câu trả lời chi tiết sẽ được đưa ra ở chương 19, vì chủ đề khá phức tạp, nhưng

chúng ta có thể đưa ra các điểm quan trọng sau đây.

Nếu các biến giải thích ngẫu nhiên và hạng nhiễu u theo phân phối độc lập, thì các kết

quả cổ điển [tức CLRM] được thảo luận trong chương 1 (Định lý Gauss-Markov) vẫn

đúng với điều kiện chúng ta thực sự nhấn mạnh rằng phân tích của chúng ta là có điều

kiện theo các giá trị cho trước của các biến giải thích. Trái lại, nếu các biến giải thích

ngẫu nhiên và hạng nhiễu u không có tương quan, thì các kết quả cổ điển chỉ đúng một

cách tiệm cận – nghĩa là đúng trong các mẫu lớn18.

Nhưng điều gì xảy ra nếu cả hai điều kiện này không thỏa? Nói cách khác, điều gì xảy ra

nếu các biến giải thích và hạng nhiễu u đương quan với nhau? Chúng ta đã thảo luận

trước đây về trường hợp các lỗi do đo lường trong biến giải thích và cho rằng trong tình

huống này chúng ta có thể phải dựa vào (các) phương pháp ước lượng thay thế khác,

18 Nhớ rằng sự độc lập hàm ý không có tương quan, nhưng không tương quan không nhất thiết hàm ý độc lập.

Page 31: hương 7 - vi.vnp.edu.vn

31

chẳng hạn như các biến công cụ. Nhưng có nhiều trường hợp khác ở đó các biến giải

thích và hạng nhiễu tương quan với nhau. Bởi vì tầm quan trọng của chủ đề này, nên

chúng ta thảo luận về nó kỹ hơn ở chương 19 của cuốn sách này về các biến giải thích

ngẫu nhiên và ước lượng dựa vào các biến công cụ. Đủ để lưu ý ở đây rằng trong vài

trường hợp chúng ta có thể tìm ra được các công cụ thích hợp, vì thế sử dụng chúng

thay cho các biến giải thích ngẫu nhiên gốc chúng ta có thể có các giá trị ước lượng nhất

quán của các tham số.

7.9 Vấn đề đồng thời

Trọng tâm của chúng ta cho đến giờ là các mô hình hồi quy đơn phương trình, trong đó

chúng ta thể hiện một biến phụ thuộc Y như một hàm của một hoặc nhiều biến giải

thích, các biến X. Nếu có bất kỳ nhân quả nào giữa Y và các biến X, thì nó được giả định

ngầm rằng chiều hướng của mối quan hệ nhân quả chỉ chạy từ các X sang Y.

Nhưng có nhiều trường hợp ở đó một mối quan hệ một chiều (unidirectional

relationship) giữa Y và các biến X không thể được duy trì, vì rất có thể là một vài biến X

có ảnh hưởng lên Y nhưng ngược lại Y cũng có ảnh hưởng lên một hoặc nhiều biến X.

Nói cách khác, có thể có một mối quan hệ qua lại giữa Y và các biến X. Để xem xét các

mối quan hệ qua lại như thế, chúng ta sẽ cần nhiều hơn một phương trình hồi quy. Điều

này đưa đến một thảo luận về các mô hình hồi quy phương trình đồng thời

(simultaneous equation regression models) – nghĩa là, các mô hình có xét đến các mối

quan hệ qua lại giữa các biến19. Ở các phần tiếp theo, chúng ta thảo luận ngắn gọn tại

sao OLS có thể không thích hợp để ước lượng một phương trình riêng lẻ mà có thể được

áp dụng cho một hệ mô hình hình phương trình đồng thời có hai hoặc nhiều phương

trình.

Mô hình Keynes đơn giản về nhân tố quyết định thu nhập

Mỗi sinh viên học nhập môn kinh tế học vĩ mô đều biết mô hình Keynes về nhân tố

quyết định tổng thu nhập sau đây. Ở đây chúng ta thay thế ký hiệu Y và X bằng các ký

hiệu kinh tế vĩ mô truyền thống, đó là C là chi tiêu cho tiêu dùng, Y là thu nhập và I là

đầu tư.

19 Trong những năm 1970 và 1980, chủ đề về các mô hình phương trình đồng thời là một phần không thể thiếu của các sinh viên học kinh tế lượng. Nhưng sau đó, các mô hình này mất đi sự ưa thích bởi vì thành tích dự báo kém cỏi của chúng. Nhiều mô hình kinh tế lượng cạnh tranh liên quan đến hệ đa phương trình, chẳng hạn như mô hình trung bình trượt theo cơ chế tự hồi quy (ARMA – autoregressive moving average) và véc tơ tự hồi quy (VAR – vector autoregression), càng ngày càng thay thế các mô hình phương trình đồng thời truyền thống. Tuy nhiên, Ban Dự Trữ Trung Ương và Phòng Thương Mại của Mỹ và nhiều cơ quan dự báo tư nhân vẫn sử dụng chúng cùng với các mô hình ARMA và VAR.

Page 32: hương 7 - vi.vnp.edu.vn

32

Mô hình Keynes giản đơn giả định trong một nền kinh tế đóng – nghĩa là, không có ngoại

thu7o8ng hoặc chi tiêu của chính phủ20.

Khi giải quyết các mô hình phương trình đồng thời, chúng ta phải biết vài từ vựng (khái

niệm) mới. Thứ nhất, chúng ta phải phân biệt giữa các biến nội sinh và ngoại sinh. Các

biến nội sinh là những biến mà các giá trị của chúng được xác định trong mô hình, và

các biến ngoại sinh là các biến mà các giá trị của nó không được xác định trong mô hình.

Trong mô hình Keynes giản đơn, C và Y là các biến nội sinh, hoặc là các biến phụ thuộc

lẫn nhau (jointly dependent variables), và I là một biến ngoại sinh. Thỉnh thoảng, các

biến ngoại sinh cũng được gọi là các biến được xác định trước, vì các giá trị của chúng

được xác định một cách độc lập hoặc cố định, chẳng hạn như các mức thuế suất được

xác định bởi chính phủ21.

Một phân biệt khác là giữa các phương trình cấu trúc hoặc hành vi và các đồng nhất

thức (identities). Các phương trình cấu trúc thể hiện cấu trúc hoặc hành vi của một khu

vực cụ thể của nền kinh tế, chẳng hạn như khu vực hộ gia đình. Hàm tiêu dùng trong

mô hình Keynes cho chúng ta biết khu vực hộ gia đình phản ứng ra sao theo các thay

đổi trong thu nhập. Các hệ số trong các phương trình cấu trúc được biết như các hệ số

cấu trúc (structural coefficients): B1 và B2 trong ví dụ của chúng ta. B2 là khuynh hướng

tiêu dùng biên (MPC, marginal propensity to consume) – nghĩa là, lượng chi tiêu cho

tiêu dùng tăng thêm trên một đôla thu nhập tăng thêm – giá trị MPC này nằm giữa

khoảng 0 và 1.

Các đồng nhất thức, như trong phương trình (7.9), là đúng theo định nghĩa; trong ví dụ

của chúng ta tổng thu nhập bằng chi tiêu cho tiêu dùng và chi tiêu cho đầu tư.

Chệch do tính đồng thời

Giả sử chúng ta muốn ước lượng hàm tiêu dùng được cho trong phương trình (7.8)

nhưng không tính đến phương trình thứ hai trong hệ thống. Các hậu quả là gì? Để thấy

các hậu quả, giả sử hạng nhiễu u bao gồm một biến mà không thể đo lường một cách

dễ dàng, ví dụ, niềm tin người tiêu dùng (consumer confidence). Tiếp tục giả định rằng

những người tiêu dùng trở nên lạc quan về nền kinh tế bởi vì một sự tăng giá trên thị

trường chứng khoán hoặc một sự cắt giảm thuế sắp xảy ra. Điều này dẫn đến một sự

gia tang trong giá trị của u. Kết quả của sự gia tang trong u, chi tiêu cho tiêu dùng tăng.

20 Dĩ nhiên, chúng ta có thể mở rộng mô hình để bao gồm chi tiêu của chính phủ và ngoại thương, trong trường hợp đó nó sẽ là một mô hình nền kinh tế mở. 21 Cũng nên lưu ý rằng việc xác định các biến nào là nội sinh và biến nào là ngoại sinh là tùy vào người nghiên cứu. Các biến như thời tiết, nhiệt độ, số trận bão, động đất, … hiễn nhiên là các biến ngoại sinh. Nếu chúng ta mở rộng mô hình Keynes giản đơn để cho đầu tư là một hàm của lãi suất, thì đầu tư trở thành một biến nội sinh và lãi suất trở thành biến ngoại sinh. Nếu chúng ta có một phương trình khác trong đó lãi suất như một hàm của cung tiền, thì lãi suất trở thành biến nội sinh và cung tiền trở thành biến ngoại sinh. Như bạn có thể thấy, mô hình Keynes giản đơn có thể được mở rộng rất nhanh. Cũng rõ ràng là đôi khi việc phân loại các biến thành các loại nội sinh và ngoại sinh có thể mang tính tùy ý, một trỉ trích chống lại mô hình hóa phương trình đồng thời bởi những người ủng hộ mô hình VAR, một chủ đề mà chúng ta sẽ thảo luận ở chương 16.

Page 33: hương 7 - vi.vnp.edu.vn

33

Nhưng vì chi tiêu cho tiêu dùng là một thành phần của thu nhập, điều này đến lượt nó

sẽ đẩy thu nhập tăng lên, và đến lượt nó thu nhập sẽ lại đẩy tiêu dùng tăng lên, và vân

vân. Vì thế chúng ta có một chuỗi kiểu này: u => C => Y => C. Như bạn có thể thấy, thu

nhập và chi tiêu cho tiêu dùng là phụ thuộc lẫn nhau (mutually interdependent).

Vì thế, nếu chúng ta bỏ qua mối quan hệ phụ thuộc lẫn nhau này và ước lượng phương

trình (7.8) theo OLS, thì các tham số ước lượng không những bị chệch (trong các mẫu

nhỏ hoặc mẫu xác định) mà còn không nhất quán (trong các mẫu lớn). Lý do của điều

này là trong hàm tiêu dùng, Yt và ut tương quan với nhau [Diễn giải: Nghĩa là biến giải

thích và hạng nhiễu tương quan với nhau]. Chứng minh cho phát biểu này được trình

bày trong phần phụ lục của chương này. Điều này tương tự như trường hợp các biến

giải thích ngẫu nhiên có tương quan với hạng nhiễu, một chủ đề đã được chúng ta thảo

luận trước đây.

Vậy chúng ta ước lượng các tham số của hàm tiêu dùng như thế nào? Chúng ta có thể

sử dụng phương pháp bình phương bé nhất gián tiếp (ILS, indirect least squares) cho

mục đích này.

Phương pháp bình phương bé nhất gián tiếp

Có một cách thú vị để xem xét các phương trình (7.8) và (7.9). Nếu bạn thay thế phương

trình (7.8) vào (7.9), sau khi biến đổi đơn giản, bạn sẽ có phương trình sau đây:

Tương tự, nếu bạn thay thế phương trình (7.9) vào (7.8), bạn sẽ có:

Mỗi phương trình này thể hiện một biến nội sinh như một hàm của (các) biến ngoại sinh

hoặc (các) biến được xác định trước và hạng nhiễu. Các phương trình như thế được gọi

là các phương trình dạng rút gọn (reduced-form equations).

Trước khi đi tiếp, cần lưu ý rằng các hệ số của các phương trình dạng rút gọn được gọi

là các số nhân tác động (impact multipliers). Chúng cho biết tác động cuối cùng của gia

tăng một đôla cho đầu tư (hoặc bất kỳ biến nào khác bên vế phải của các phương trình

nói trên) lên tiêu dùng và thu nhập. Ví dụ, lấy hệ số của It (= B2/(1-B2)). Chúng ta hãy

tăng đầu tư thêm một đôla. Từ phương trình (7.9), thu nhập lúc đầu sẽ tăng thêm một

đôla. Sau đó khoản gia tăng này sẽ dẫn đến tăng tiêu dùng B2 đô la, sau đó khoản gia

tăng trong tiêu dùng này sẽ làm gia tăng thu nhập thêm B2 đô la, sau đó khoản thu nhập

Page 34: hương 7 - vi.vnp.edu.vn

34

gia tăng này sẽ làm gia tăng tiêu dùng thêm B22 đôla, và vân vân. Ảnh hưởng cuối cùng

sẽ là một khoản gia tăng trong tiêu dùng bằng B2/(1 – B2)22. Vì thế nếu MPC B2 = 0.7, tác

động cuối cùng của một đôla gia tăng trong chi tiêu cho đầu tư lên chi tiêu cho tiêu

dùng sẽ là 0.7/0.3 = $2.33. Dĩ nhiên, MPC càng cao thì tác động lên chi tiêu cho tiêu

dùng càng cao.

Bây giờ, các phương trình dạng rút gọn có thể được ước lượng bằng OLS, vì biến ngoại

sinh I và hạng nhiễu (theo thiết kế) là không có tương quan với nhau. Câu hỏi quan trọng

là liệu chúng ta có thể có được các giá trị ước lượng duy nhất của các hệ số cấu trúc từ

các hệ số dạng rút gọn hay không? Đây được biết như bài toán nhận dạng (problem of

identification). Vì thế, nếu chúng ta có thể ước lượng duy nhất các hệ số của hàm tiêu

dùng từ các hệ số dạng rút gọn, thì chúng ta nói rằng hàm tiêu dùng được nhận dạng.

Theo như phương trình (7.9), chúng ta không có vấn đề nhận dạng, vì phương trình đó

là một đồng nhất thức và tất cả các hệ số của nó được biết (tức = 1).

Quá trình có được các tham số của các phương trình cấu trúc này từ các hệ số dạng rút

gọn được biết như phương pháp bình phương bé nhất gián tiếp, bởi vì chúng ta thu

được các giá trị ước lượng của các hệ số cấu trúc một cách gián tiếp bằng cách trước

hết ước lượng các hệ số dạng rút gọn bằng OLS. Dĩ nhiên, nếu một phương trình không

được nhận dạng, chúng ta không thể có được các giá trị ước lượng của các tham số bằng

OLS, hoặc vì vấn đề đó, bằng bất kỳ phương pháp nào khác.

Quay lại hàm tiêu dùng, bạn có thể xác nhận rằng:

[Diễn giải: A1 = B1/(1 – B2) và A2 = 1/(1 – B2), nên A1/A2 = B1; và A4 = B2/(1 – B2), nên A4/A2

= B2].

Vì thế chúng ta có thể có các giá trị duy nhất của các tham số của hàm tiêu dùng từ các

hệ số dạng rút gọn. Nhưng lưu ý rằng các hệ số cấu trúc là các hàm phi tuyến của các

hệ số dạng rút gọn.

Trong các mô hình phương trình đồng thời có nhiều phương trình, thì để có được các

hệ số dạng rút gọn và sau đó cố gắng có được các hệ số cấu trúc từ các hệ số rút gọn là

rất dài dòng. Bên cạnh đó, phương pháp bình phương bé nhất gián tiếp trở nên vô dụng

nếu một phương trình không được nhận dạng. Trong trường hợp đó, chúng ta sẽ phải

dựa vào các phương pháp ước lượng khác. Một phương pháp như thế là phương pháp

bình phương bé nhất hai bước (2SLS, two-stage least squares), chúng ta sẽ thảo luận

phương pháp này một cách chi tiết hơn ở chương 19 về các biến công cụ.

22 Vì thế, chúng ta có một chuỗi tác động B2 + B2

2 + B23 + …. = B2(1 + B2 + B2

2 + ….) = B2/(1 – B2), theo tổng của một chuỗi hình học. Nhớ rằng 0 < B2 < 1.

Page 35: hương 7 - vi.vnp.edu.vn

35

Trước khi minh họa phương pháp bình phương bé nhất gián tiếp bằng một ví dụ bằng

số, chúng ta cần lưu ý rằng các ước lượng của các hệ số cấu trúc thu được từ ILS là các

ước lượng nhất quán – nghĩa là, khi cỡ mẫu tăng lên vô cùng, thì các ước lượng này hội

tụ về các giá trị thực của chúng. Nhưng trong các mẫu nhỏ hoặc mẫu xác định, thì các

ước lượng ILS có thể bị chệch. Như đã được lưu ý trước đây, các ước lượng OLS bị chệch

cũng như không nhất quán (khi áp dụng cho các mô hình phương trình đồng thời).

Ví dụ minh họa: Hàm tổng tiêu dùng của Mỹ, 1960-2009

Để minh họa phương pháp bình phương bé nhất gián tiếp, chúng ta thu thập dữ liệu về

chi tiêu cho tiêu dùng (PCE), chi tiêu cho đầu tư (GPDI), và thu nhập (Y) của Mỹ giai đoạn

1960 – 2009; dữ liệu năm 2009 là dữ liệu tạm thời. GDPI là tổng đầu tư tư nhân nội địa

(gross domestic private investment) và PCE là chi tiêu cho tiêu dùng cá nhân. Dữ liệu

trong Table 7.11, dữ liệu này có thể được tìm thấy trên trang web của cuốn sách.

Cũng cần chỉ ra rằng dữ liệu về thu nhập đơn giản là tổng của chi tiêu cho tiêu dùng và

đầu tư, theo đồng nhất thức về thu nhập của Keynes. Trước hết chúng ta ước lượng hai

phương trình dạng rút gọn được cho trong các phương trình (7.10) và (7.11), kết quả

ước lượng được trình bày trong các Bảng 7.12 và 7.13.

Bảng 7.12 cho thấy rằng nếu GDPI tăng thêm một đôla, thì trung bình, tiêu dùng cá nhân

tăng thêm $4.45 đôla, điều này có thế sức mạnh của số nhân.

Bảng 7.12: Hồi quy dạng rút gọn của PCE theo GDPI.

Từ Bảng 7.13 chúng ta thấy rằng nếu GDPI tăng thêm một đôla, thì trung bình, thu nhập

tăng thêm 5.45 đôla. Trong số gia tăng này, 4.45 đôla là chi tiêu cho tiêu dùng và 1 đôla

là chi tiêu cho đầu tư, vì thế thỏa mãn đồng nhất thức về thu nhập.

Chúng ta có thể sử dụng các kết quả trong các Bảng 7.12 và 7.13 để ước lượng các tham

số cấu trúc gốc của hàm tiêu dùng, sử dụng phương trình (7.12). Chúng ta đề xuất bạn

đọc xác nhận hàm chi tiêu cho tiêu dùng sau đây, một kết quả thực nghiệm của phương

trình (7.8).

Page 36: hương 7 - vi.vnp.edu.vn

36

(7.13)23

Với mục đích so sánh, nên chúng ta trình bày kết quả OLS trong Bảng 7.14.

Bảng 7.13: Hồi quy dạng rút gọn của thu nhập theo GDPI.

[

Bảng 7.14: Kết quả hồi quy OLS của hồi quy PCE theo thu nhập.

Các kết quả ILS và OLS cho thấy không có sự khác biệt nhiều trong các giá trị ước lượng

của MPC, nhưng các hệ số cắt trong hai hồi quy thì rất khác nhau. Dĩ nhiên, không có gì

đảm bảo rằng trong tất cả các ứng dụng thì các kết quả ILS và OLS sẽ tương tự nhau. Ưu

điểm của ILS là nó đưa vào tính một cách trực tiếp vấn đề đồng thời (simultaneity

problem), trong khi đó OLS đơn giản là bỏ qua vấn đề này.

Chúng ta đã xem xét một ví dụ rất đơn giản về các mô hình phương trình đồng thời.

Trong các mô hình có nhiều phương trình, thì không dễ để nhận dạng nếu tất cả các

phương trình trong hệ thống được nhận dạng. Phương pháp ILS thì quá vụng về không

23 Vì các hệ số cấu trúc là các hàm phi tuyến của các hệ số dạng rút gọn, nên không có cách đơn giản để có được các sai số chuẩn của các hệ số cấu trúc.

Page 37: hương 7 - vi.vnp.edu.vn

37

thể nhận dạng mỗi phương trình. Nhưng có nhiều phương pháp nhận dạng khác, chẳng

hạn như điều kiện bậc của nhận dạng (order condition of identification) và điều kiện

hạng của nhận dạng (rank condition of identification). Chúng ta sẽ không thảo luận các

phương pháp này ở đây, vì như thế sẽ dẫn chúng ta đi xa so với chủ đề chính của chương

này, chủ đề chính ở chương này là thảo luận các nguồn chủ yếu của các lỗi do xác định

sai dạng mô hình. Nhưng một thảo luận ngắn gọn về điều kiện bậc của nhận dạng được

trình bày trong chương 19. Một thảo luận mở rộng của chủ đề này có thể được tìm thấy

trong các tài liệu tham khảo24.

7.10 Các mô hình hồi quy trạng thái động

Lý thuyết kinh tế thường được phát biểu ở hình thức tĩnh (static) hoặc cân bằng

(equilibrium). Ví dụ, kinh tế học căn bản dạy chúng ta rằng giá cân bằng của một hàng

hóa (hoặc dịch vụ) được xác định bởi giao điểm giữa các đường cung và đường cầu thích

hợp. Tuy nhiên, giá cân bằng không được định tức thì mà bởi một quá trình thử và sai,

quá trình ấy cần thời gian. Điều này dẫn chúng ta đến một thảo luận về các mô hình hồi

quy trạng thái động (dynamic regression models). Vì thế, nếu chúng ta không tính đến

khía cạnh động (tức khía cạnh thời gian) của một vấn đề, thì chúng ta đang mắc phải

một lỗi do xác định sai dạng mô hình.

Để tạo động cơ cho việc thảo luận, chúng ta xem xét giả thuyết thu nhập thường xuyên

(permenant income hypothesis, hoặc còn gọi là thu nhập dài hạn) nổi tiếng của Milton

Friedman25. Trong dạng đơn giản của nó, giả thuyết này phát biểu rằng (chi tiêu cho)

tiêu dùng hiện tại của cá nhân là một hàm theo thu nhập thường xuyên (tức dài hạn

theo đời sống) của người đó. Nhưng làm sao chúng ta có thể đo lường thu nhập dài

hạn? Dựa trên dữ liệu theo quý, Friedman ước lượng thu nhập dài hạn như một trung

bình có trọng số của thu nhập theo quý của 16 quý trước đó. Cho Y đại diện cho chi tiêu

cho tiêu dùng và X là thu nhập, Friedman ước lượng loại mô hình như sau:

Trong đó, Xt là thu nhập ở giai đoạn hiện tại (quý hiện tại), Xt-1 là thu nhập trễ một quý,

Xt-2 là thu nhập trễ hai quý, và vân vân. Các hệ số B là các trọng số gán cho thu nhập

trong các quý. Chúng ta giả định rằng mô hình (7.14) thỏa mãn các giả định OLS. Vì các

mục đích thảo luận, chúng ta sẽ gọi (7.14) là hàm tiêu dùng.

Trong lý thuyết, mô hình (7.14) được biết với tên gọi là mô hình phân phối trễ (DLM,

distributed lag model), bởi vì giá trị hiện tại của biến phụ thuộc Y bị ảnh hưởng bởi giá

trị hiện tại và các giá trị trễ của biến giải thích X. Điều này không khó để nhận biết. Giả

sử bạn được tang lương trong năm này. Giả định sự gia tăng này được duy trì, bạn sẽ

24 Ví dụ, xem Gujarati/Porter, các chương 18-20. 25 Milton Friedman, A Theory of Consumption Function, Princeton University Press, New Jersey, 1957.

Page 38: hương 7 - vi.vnp.edu.vn

38

không nhất thiết vội vã chi tiêu phần gia tăng trong thu nhập của bạn ngay tức thì. Thay

vào đó, bạn có thể rãi nó ra trong một khoảng thời gian.

Trước khi chúng ta trở lại ước lượng mô hình phân phối trễ DLM, có thể hữu ích để giải

thích mô hình ở phương trình (7.14). Hệ số B0 được biết như số nhân tác động hoặc số

nhân ngắn hạn, vì nó cho biết sự thay đổi trong giá trị trung bình của Y theo một thay

đổi đơn vị trong X trong cùng giai đoạn thời gian. Nếu sự thay đổi trong X được giữ cùng

mức sau đó, thì (B0 + B1) cho biết thay đổi trong Y trung bình trong giai đoạn tiếp theo,

(B0 + B1 + B2) trong giai đoạn tiếp theo nữa, … Các tổng riêng phần này được gọi là các

số nhân trung gian (interim hoặc intermediate). Sau k giai đoạn (nếu đó là độ trễ tối đa

đa được xem xét), chúng ta có:

Đây được biết như số nhân tổng (total multiplier) hoặc số nhân dài hạn (long-run

multiplier). Số nhân này cho biết thay đổi cuối cùng trong chi tiêu cho tiêu dùng trung

bình theo một sự gia tăng đơn vị (được duy trì) trong thu nhập.

Vì thế, trong hàm tiêu dùng giả định sau đây,

Số nhân tác động sẽ là 0.4, số nhân trung gian sẽ là 0.75, và số nhân tổng hoặc dài hạn

sẽ là 0.85. Nếu, ví dụ, thu nhập tăng thêm 1000 đôla trong năm t, và giả định rằng sự

gia tăng này được duy trì, thì tiêu dùng sẽ tăng thêm 400 đôla trong năm thứ nhất, tăng

200 đôla trong năm thứ hai, và 150 đôla trong năm thứ ba, với mức tăng tổng cộng cuối

cùng là 850 đôla. Có thể, người tiêu dùng sẽ tiết kiệm 150 đôla.

Quay lại với mô hình (7.14), chúng ta có thể ước lượng phương trình này bằng phương

pháp OLS26. Nhưng điều này có thể không thực tế vì nhiều lý do. Thứ nhất, làm sao

chúng ta quyết định nên sử dụng bao nhiêu độ trễ? Thứ hai, nếu chúng ta sử dụng nhiều

độ trễ, thì chúng ta sẽ có ít hơn số bậc tự do để thực hiện các phân tích thống kê có ý

nghĩa, đặc biệt là nếu cỡ mẫu nhỏ. Thứ ba, trong dữ liệu chuỗi thời gian, các giá trị liên

tục của số hạng trễ có thể tương quan cao với nhau, điều này có thể dẫn tới vấn đề đa

cộng tuyến, điều này, như đã được lưu ý ở chương về đa cộng tuyến, sẽ dẫn đến ước

lượng không chính xác các hệ số hồi quy.

26 Với điều kiện các biến giải thích (hiện tại và các độ trễ) là biến ngoại sinh yếu (weakly exogeneous), nghĩa là chúng không tương quan với hạng nhiễu. Trong nhiều trường hợp, cần một giả định mạnh hơn trong đó các biến giải thích là biến ngoại sinh nghiêm ngặt (strictly exogeneous), nghĩa là, chúng độc lậc với các giá trị của hạng nhiễu ở tương lai, hiện tại, và quá khứ.

Page 39: hương 7 - vi.vnp.edu.vn

39

Để khắc phục một số nhược điểm này của mô hình DLM, một số phương pháp thay thế

khác đã được đề nghị trong lý thuyết. Chúng ta sẽ chỉ thảo luận một trong số phương

pháp thay thế này, đó là mô hình phân phối trễ Koyck27.

Mô hình phân phối trễ Koyck28

Để hiểu mô hình này, chúng ta hãy thể hiện (7.14) ở một dạng tổng quát hơn:

Đây được gọi DLM không xác định (infinite DLM) bởi vì chúng ta không xác định độ dài

của độ trễ, chúng ta không xác định ngược lại trong thời gian bao xa mà chúng ta muốn

đi. Ngược lại, mô hình trong (7.14) là một mô hình xác định, vì chúng ta xác định cụ thể

độ dài của độ trễ: 16 số hạng trễ. DLM không xác định trong (7.16) là một tiện lợi về

mặt toán học, vì chúng ta sẽ thấy.

Để các tham số của (7.16), Koyck đã sử dụng phân phối xác suất hình hình học

(geometric probability distribution). Giả định rằng tất cả các hệ số trong (7.16) có cùng

dấu, điều này có ý nghĩa trong hàm tiêu dùng, Koyck giả định rằng chúng giảm theo

dạng hình học như sau:

Trong đó, được biết như tỷ lệ giảm (rate of decline of decay) và (1 - ) được biết như

đốc độ điều chỉnh (), nghĩa là, chi tiêu cho tiêu dùng sẽ điều chỉnh nhanh như thế nào

về mức thu nhập mới.

Ngoài B0, giá trị của mỗi hệ số Bk phụ thuộc vào : một giá trị gần 1 sẽ cho biết rằng

Bk giảm chậm, nghĩa là, các giá trị X càng xa trong quá khứ sẽ có một ít tác động lên giá

trị hiện tại của Y. Ngược lại, một giá trị càng gần 0 sẽ cho biết tác động của X ở xa

trong quá khứ sẽ không có tác động lên giá trị hiện tại của Y.

Koyck giả định rằng về mặt con số thì mỗi hệ số B kế tiếp sau nhỏ hơn mỗi B trước đó

(điều này theo giả định rằng nhỏ hơn 1), điều này cho biết rằng khi chúng ta lùi xa về

quá khứ, thì ảnh hưởng của độ trễ đó lên Y càng nhỏ hơn. Trong hàm chi tiêu cho tiêu

dùng (7.14), điều này có ý nghĩa rất rõ, vì chi tiêu cho tiêu dùng của một người hôm nay

ít có thể bị ảnh hưởng bởi thu nhật xa trong quá khứ so với thu nhập trong quá khứ gần

hơn.

Điều này giúp chúng ta ước lượng mô hình DLM không xác định như thế nào? Để biết

như thế nào, chúng ta hãy thể hiện (7.16) như sau:

27 Để biết chi tiết, xem Gujarati/Porter, Chương 17. Một thảo luận nâng cao hơn, xem James H. Stock and Mark W. Watson (2011), Introduction to Econometrics, 3rd edn, Addison-Wesley, Boston, Chương 15. 28 L.M. Koyck (1954), Distributed Lags and Investment Analysis, North Holland Publishing Company, Amsterdam.

Page 40: hương 7 - vi.vnp.edu.vn

40

Ở đây các hệ số được sử dụng theo (7.17).

Tuy nhiên, (7.18) không dễ để ước lượng, vì chúng ta vẫn phải ước lượng một số không

xác định các hệ số và hệ số là hệ số phi tuyến cao. Nhưng Koycj sử dụng một mẹo

thông minh để giải quyết vấn đề này. Ông lùi một độ trễ trong (7.18) để có phương trình

sau:

Sau đó ông nhân (7.19) cho để có:

Lấy (7.18) trừ (7.20), ông có:

Sắp xếp lại (7.21), cuối cùng ông có:

Trong đó, vt = ut - ut-1.

Thú vị để lưu ý rằng giá trị trễ của biến phụ thuộc xuất hiện như một biến giải thích

trong mô hình này. Các mô hình như thế được gọi là các mô hình tự hồi quy

(autoregressive models), vì chúng liên quan đến việc hồi quy biến phụ thuộc theo (các)

biến trễ của chính nó giữa các biến giải thích độc lập khác.

Một ưu điểm nổi bậc của cách chuyển hóa Koyck là thay vì ước lượng một số không xác

định các tham số, như trong (7.16), bây giờ chúng ta chỉ phải ước lượng 3 tham số trong

mô hình (7.22), một sự đơn giản hóa kinh khủng mô hình gốc. Có bất cứ vấn đề gì khi

ước lượng (7.22) không? Trước khi trả lời câu hỏi đó, thật thú vị để lưu ý rằng các tác

động ngắn hạn và dài hạn của một thay đổi đơn vị trong X lên giá trị trung bình của Y có

thể được tính toán dễ dàng từ (7.22).

Tác động ngắn hạn được cho bởi hệ số của X, tức B0, và tác động dài hạn của một thay

đổi đơn vị ổn định (suatained unit change) trong X được cho bởi B0/(1 - )29. Vì nằm

29 Đây là bởi vì trong dài hạn Y* = Yt = Yt-1, nên chuyển Yt-1 sang vế trái của (7.22) và sau khi đơn giản hóa chúng ta có được tác động dài hạn, như chúng ta đã thấy.

Page 41: hương 7 - vi.vnp.edu.vn

41

giữa 0 và 1, nên tác động dài hạn sẽ lớn hơn tác động ngắn hạn, điều này có ý nghĩa bởi

vì nó cần thời gian để điều chỉnh về một mức thu nhập đã thay đổi.

Ước lượng (7.22) có một số thách thức ghê gớm. Thứ nhất, nếu hạng nhiễu ut thỏa mãn

các giả định cổ điển (tức trung bình bằng 0, phương sai không đổi, và không có tương

quan chuỗi), thì hạng nhiễu gộp (composite error term) vt trong (7.22) có thể không

thỏa các giả định cổ điển. Như một vấn đề thực sự, chúng ta có thể thấy rằng hạng

nhiễu vt có tương quan chuỗi. Thứ hai, giá trị trễ của biến phụ thuộc Y xuất hiện như

một biến giải thích trong (7.22). Vì Yt là một giá trị ngẫu nhiên, nên Yt-1 cũng là một biến

ngẫu nhiên. Vì mô hình OLS cổ điển giả định rằng các biến giải thích phải hoặc là phi

ngẫu nhiên, hoặc nếu ngẫu nhiên, chúng phải có phân phối độc lập với hạng nhiễu, nên

chúng ta phải tìm hiểu xem trường hợp sau có đúng hay không. Trong (7.22) chúng ta

có thể thấy rằng Yt-1 và vt có tương quan với nhau30. Trong trường hợp này, các ước

lượng OLS thậm chí không nhất quán. Thứ ba, như đã được lưu ý ở chương về tự tương

quan, chúng ta không thể sử dụng thống kê d Durbin-Watson để kiểm tra tự tương quan

trong vt nếu biến trễ của biến phụ thuộc xuất hiện như một biến giải thích trong mô

hình, như trong (7.22), mặc dù bản thân Durbin cũng có phát triển một kiểm định, gọi

là kiểm định h Durbin, để kiểm tra tương quan chuỗi trong trường hợp như thế này. Vì

các lý do này, mô hình Koyck, mặt dù tao nhã, nhưng cũng có nhiều khó khăn trong việc

ước lượng. Vậy giải pháp là gì?

Thứ nhất, hạng nhiễu vt bị tự tương quan, nên các sai số chuẩn của các ước lượng OLS

không thể tin cậy, mặc dù các ước lượng OLS vẫn nhất quán. Nhưng chúng ta có thể giải

quyết vấn đề này bằng các sử dụng các sai số chuẩn HAC đã được thảo luận ở chương

tự tương quan.

Nhưng vấn đề nghiêm trọng hơn là tương quan giữa biến trễ Yt và hạng nhiễu vt. Như

chúng ta biết từ phần thảo luận trước, trong tình huống này các ước lượng OLS thậm

chí không nhất quán. Một giải pháp cho vấn đề này là tìm một biến đại diện cho biến

trễ của biến phụ thuộc, Yt-1, sao cho biến đại diện có tương quan cao với Yt-1 nhưng

không có tương quan với hạng nhiễu vt. Biến đại diện như thế được biết như một biến

công cụ (IV)31, nhưng thường không dễ để tìm thấy các biến công cụ. Trong ví dụ được

thảo luận dưới đây, chúng ta sẽ cho tah61y chúng ta có thể tìm một biến đại diện cho

biến trễ của chi tiêu cho tiêu dùng như thế nào trong ví dụ về tiêu dùng của chúng ta.

Ví dụ minh họa

Để minh họa mô hình (7.22), chúng ta sử dụng dữ liệu về chi tiêu cho tiêu dùng cá nhân

(PCE) và thu nhập khả dụng (tức sau thuế (DPI) của Mỹ cho giai đoạn 1960 đến 2009

(tất cả dữ liệu tính theo giá năm 2005). (Xem phụ lục dữ liệu ở trang 149).

30 Để biết chứng minh phát biểu này và phát biểu trước đó, xem Gujarati/Porter, trang 635. 31 Chương 19 dành cho một thảo luận về phương pháp ước lượng biến công cụ.

Page 42: hương 7 - vi.vnp.edu.vn

42

Đối với ví dụ hiện tại, sử dụng phương pháp OLS chúng ta có kết quả như trong Bảng

7.15.

Bởi vì các vấn đề với các sai số chuẩn khi có tự tương quan, nên chúng ta sử dụng các

sai số chuẩn mạnh (các sai số chuẩn theo phương pháp Newey-West) cho hàm tiêu

dùng của chúng ta, kết quả được trình bày trong Bảng 7.16.

Mặc dù các hệ số hồi quy trong hai bảng là giống nhau, nhưng các sai số chuẩn ước

lượng hơi cao hơn dưới HAC. Mặc dù thế, tất cả các hệ số ước lượng đều có ý nghĩa

thống kê cao, như được phản ánh trong các giá trị xác suất p thấp của các giá trị t ước

lượng. Điều này có thể cho biết rằng vấn đề tự tương quan có thể không quá nghiêm

trọng trong trường hợp hiên tại.

Bảng 7.15: Kết quả hồi quy OLS (7.22).

Bảng 7.16: Kết quả hồi quy với các sai số chuẩn mạnh.

Page 43: hương 7 - vi.vnp.edu.vn

43

Chấp nhận kết quả cho giai đoạn đang xét, chúng ta vẫn phải giải quyết khả năng tương

quan giữa biến trễ của PCE và hạng nhiễu, dường như khuynh hướng tiêu dùng biên

ngắn hạn (MPC) ngoài thu nhập khả dụng là khoảng 0.43, nhưng MPC dài hạn là khoảng

0.9832. Nghĩa là, khi người tiêu dùng có thời gian để điều chỉnh theo một đôla tăng thêm

trong PDI, thì họ sẽ tăng chi tiêu cho tiêu dùng trung bình của họ hầu như bằng một

đôla trong dài hạn, nhưng trong ngắn hạn, tiêu dùng tăng chỉ khoảng 43 cent.

Hệ số ước lượng khoảng 0.56 nằm giữa 0 và 1, như được kỳ vọng. Vì thế, tốc độ điều

chỉnh của PCE theo thay đổi trong DPI là không quá chậm hoặc không quá nhanh.

Để biết PCE điều chỉnh nhanh như thế nào theo một sự gia tăng trong DPI, chúng ta có

thể tính thời gian trễ trung vị và trung bình (median and mean lag times). Thời gian trễ

trung vị là thời gian trong đó một nữa đầu, hoặc 50%, của tổng thay đổi trong PCE theo

một thay đổi đơn vị được duy trì trong DPI. Thời gian trễ trung bình là trung bình có

trọng số của tất cả các độ trễ liên quan, với các hệ số B tương ứng đóng vai trò như các

trọng số.

Đối với mô hình Koyck, chúng ta có thể thấy rằng các thời gian trễ này được tính theo

các công thức sau đây:

Bạn đọc có thể kiểm tra rằng đối với ví dụ hiện tại thì thời gian trễ trung vị và trung bình

lần lượt khoảng 1.19 và 1.27, lưu ý rằng giá trị khoảng 0.56. Trong trường hợp trung

vị, khoảng 50% của tổng thay đổi trong PCE trung bình được thực hiện trong 1.2 năm

và trong trường hợp trung bình thì độ trễ trung bình là khoảng 1.3 năm.

Như đã được lưu ý, độ trễ của DPI và hạng nhiễu (7.22) có thể tương quan với nhau,

điều này có thể làm cho các kết quả trong Bảng 7.16 trở nên hoài nghi, vì trong trường

hợp này các ước lượng OLS thậm chí không nhất quán. Liệu chúng ta có thể tìm một

biến đại diện cho độ trễ PCE sao cho biến đại diện này tương quan cao với nó, nhưng

không có tương quan với hạng nhiễu trong phương trình (7.22)? Vì biến trễ của PCE và

biến trễ của DPI có thể tương quan cao với nhau, và vì DPI được giả định là một biến

32 Giá trị này thu được như sau: 0.4325/(1 - ) = 0.4325/0.441, với giá trị = 0.5590.

Page 44: hương 7 - vi.vnp.edu.vn

44

ngoại sinh (yếu), nên chúng ta có thể sử dụng biến trễ của DPI như một biến đại diện

cho biến trễ của PCE33.

Bảng 7.17: Kết quả hồi quy (7.23) sử dụng các sai số chuẩn HAV.

Vì thế, thay vì ước lượng (7.22), chúng ta có thể ước lượng:

Đây là một DLM có bậc xác định. Kết quả của hồi quy này, với các sai số chuẩn điều

chỉnh theo HAC, được trình bày trong Bảng 7.17.

Hệ số của biến trễ DPI trong hồi quy này không có ý nghĩa thống kê, điều này có thể là

do sự thật rằng các giá trị hiện tại và giá trị trễ của DPI tương quan với nhau cao. Nếu

bạn cộng các hệ số của DPI hiện tại và DPI trễ, thì tổng các hệ số khoảng 0.9725, con số

này là MPC dài hạn.

Cũng nên lưu ý rằng biến đại diện mà chúng ta chọn có thể không phải là một đại diện

đúng34. Nhưng như đã được lưu ý trước đây, và như sẽ được thảo luận một cách đầy

đủ hơn ở chương 19, tìm ra các biến đại diện thích hợp thường không dễ.

Các mô hình phân phối trễ tự hồi quy (ARDL)

Cho đến giờ chúng ta đã xem xét các mô hình tự hồi quy và các mô hình phân phối trễ.

Nhưng chúng ta có thể kết hợp các đặc điểm của các mô hình này trong một mô hình

33 Các tính toán sẽ cho thấy rằng hệ số tương quan giữa hai biến này khoảng 0.998. 34 Nếu chúng ta có dữ liệu về tài sản của người tiêu dùng (W), chúng ta có thể sử dụng biến trễ của W thay cho biến trễ của DPI, vì chúng có thể tương quan cao. Tuy nhiên, không dễ để tìm ra dữ liệu về tài sản của người tiêu dùng.

Page 45: hương 7 - vi.vnp.edu.vn

45

hồi quy trạng thái động tổng quát hơn, mô hình như thế được biết với tên gọi là mô

hình phân phối trễ tự hồi quy (ARDL, autoregressive distributed lag model).

Để cho thảo luận của chúng ta đơn giản, chúng ta xem xét một biến phụ thuộc Y, và một

biến giải thích X, mặc dù thảo luận có thể được mở rộng cho các mô hình trong đó có

nhiều hơn một biến giải thích và nhiều hơn một biến phụ thuộc, đó là một chủ đề được

khám phá đầy đủ hơn trong các chương 13 và 16. Bây giờ, hãy xem xét mô hình sau đây:

Phương trình này có thể được viết lại một cách súc tích hơn như sau:

Trong mô hình này, các biến trễ của Y hình thành thành phần tự hồi quy và các biến trễ

của X hình thành thành phần phân phối trễ của mô hình ARDL(p,q), vì có p số hạng tự

hồi quy và q số hạng phân phối trễ.

Một ưu điểm của một mô hình ARDL như thế là nó không chỉ thể hiện được các hiệu

ứng động của các độ trễ Y mà còn các hiệu ứng động của các độ trễ X. Nếu đưa đủ số

các độ trễ của cả hai biến vào mô hình, thì chúng ta có thể loại bỏ được tự tương quan

trong hạng nhiễu. Việc chọn số biến trễ trong mô hình được xác định bởi tiêu chí AIC

hoặc một tiêu chí thông tin tương tự. Các mô hình như thế thường được sử dụng cho

việc dự báo và cũng để ước lượng các hiệu ứng số nhân (multiplier effects) của các biến

giải thích trong mô hình.

Trước khi chúng ta xem xét việc ước lượng và giải thích mô hình này, cũng như bản chất

của biến phụ thuộc, các biến giải thích và hạng nhiễu, thì có thể hữu ích để biết tại sao

các mô hình như thế hữu ích trong các nghiên cứu thực nghiệm35. Một ví dụ kinh điển

là đường cong Phillips nổi tiếng (Phillips curve). Dựa vào số liệu lịch sử, Phillips tìm thấy

một mối quan hệ tỷ lệ nghịch giữa lạm phát và thất nghiệp, mặc dù đường cong Phillips

ban đầu đã được điều chỉnh theo nhiều cách36. Vì lạm phát hiện tại có thể bị ảnh hưởng

bởi các biến trễ của lạm phát (bởi vì tính chất quán tính) cũng như tỷ lệ thất nghiệp hiện

tại và quá khứ, nên thật hợp lý để phát triển một mô hình ARDL cho các mục đích dự

báo và đề xuất chính sách37. Một ví dụ khác, xem xét doanh số của một sản phẩm trong

35 Để biết một thảo luận chi tiết nhưng nâng cao, xem David F. henry (1995), Dynamic Econometrics, Oxford University Press. 36 Một nghiêng cứu xếp theo niên đại về các dạng khác nhau của đường cong Phillips, xem Gordon, R. J. (2008), ‘The history of the Phillips curve: an American perspective’, a keynote address delivered at the Australasian Meetings of the Econometric Society. See http://www.nzae.org/conference/2008/090708/nr1217302437.pdf. 37 Để biết một ví dụ cụ thể, xem R. Carter Hill, William E. Griffiths and Guay C. Lim (2011), Principles of Econometrics, 3rd edn, Wiley, New York, pp. 367-369.

Page 46: hương 7 - vi.vnp.edu.vn

46

mối quan hệ với chi tiêu quảng cáo cho sản phẩm đó. Doanh số của một sản phẩm trong

giai đoạn hiện tại có thể phụ thuộc vào doanh số của sản phẩm đó trong các giai đoạn

trước cũng như chi tiêu cho quảng cáo ở hiện tại và các giai đoạn trước đó.

Trong ví dụ về hàm tiêu dùng của chúng ta, chúng ta cũng có thể lập luận rằng chi tiêu

cho tiêu dùng hiện tại phụ thuộc vào các chi tiêu cho tiêu dùng trong quá khứ cũng như

các mức thu nhập ở hiện tại và quá khứ, số độ trễ được xác định theo thực nghiệm bằng

cách sử dụng một tiêu chí thông tin thích hợp, chẳng hạn như AIC.

Để giảm thiểu hóa về mặt đại số, chúng ta hãy xem xét một mô hình ARDL(1,1) cho hàm

tiêu dùng của chúng ta.

(7.26)38

Trong đó, Y = PCE và X = DPI.

Nghĩa là, chi tiêu cho tiêu dùng cá nhân ở giai đoạn hiện tại có quan hệ với chi tiêu cho

tiêu dùng cá nhân trong giai đoạn quá khứ cũng như thu nhập khả dụng ở hiện tại và

trễ một giai đoạn.

Một đặc điểm quan trọng của mô hình (7.26) là nó có thể cho chúng ta tìm ra các hiệu

ứng trạng thái động (dynamic effects) của một thay đổi trong DPI lên các giá trị hiện tại

và tương lai của PCE. Ảnh hưởng trung gian, được gọi là số nhân tác động, của một thay

đổi đơn vị trong DPI được cho bằng hệ số B0. Nếu thay đổi đơn vị trong DPI được duy

trì, thì chúng ta có thể thấy rằng số nhân dài hạng được cho bời:

Vì nếu DPI tăng một đơn vị (ví dụ một đôla) và được duy trì, thì gia tăng tích lũy kỳ vọng

trong PCE được cho bởi công thức (7.27)39. Nói cách khác, nếu một gia tăng đơn vị trong

DPI được duy trì, phương trình (7.27) cho biết sự gia tăng thường xuyên dài hạn trong

PCE.

Để minh họa mô hình ARDL(1,1) cho ví dụ hàm tiêu dùng của chúng ta, chúng ta phải

đưa ra một số giả định. Thứ nhất, các biến Y và X là các chuỗi dừng (stationary)40. Thứ

hai, cho trước các giá trị của các biến giải thích trong phương trình (7.26), hoặc tổng

quát hơn trong phương trình (7.24), giá trị kỳ vọng của hạng nhiễu ut là bằng 0. Thứ ba,

nếu hạng nhiễu trong phương trình (7.24) không có tương quan chuỗi, thì các hệ số của

mô hình (7.24), hoặc mô hình hiện tại (7.26) được ước lượng theo OLS sẽ nhất quán

38 Nếu điều kiện A1 < 1 bị vi phạm, thì Y sẽ thể hiện hành vi bùng phát (explosive behavior). 39 Để biết cách suy ra kết quả này, xem Marno Verbeck (2008), A Guide to Modern Econometrics, 3rd edn, Wiley and Sons, Chichester, pp. 324 – 325. 40 Nói chung, một chuỗi thời gian là dừng nếu trung bình và phương sai của nó cố định qua thời gian và giá trị hiệp phương sai giữa hai giai đoạn chỉ phụ thuộc vào khoảng cách giữa hai giai đoạn thời gian chứ không phải thời điểm thực sự mà hiệp phương sai được tính. Chủ đề này được thảo luận kỹ hơn ở chương 13.

Page 47: hương 7 - vi.vnp.edu.vn

47

(trong ý nghĩa về mặt thống kê). Tuy nhiên, nếu hạng nhiễu tự tương quan, thì số hạng

độ trễ của Y trong phương trình (7.26), hoặc tổng quát hơn trong phương trình (7.24),

cũng sẽ tương quan với hạng nhiễu, trong trường hợp đó các ước lượng OLS sẽ không

nhất quán. Vì thế chúng ta cần tìm xem liệu hạng nhiễu có tự tương quan bằng bất kỳ

phương pháp nào đã được thảo luận ở chương về tương quan chuỗi. Cuối cùng, chúng

ta giả định rằng các biến X là biến ngoại sinh – ít nhất là ngoại sinh yếu. Nghĩa là, chúng

không có tương quan với hạng nhiễu.

Bây giờ chúng ta hãy quay lại ví dụ minh họa. Kết quả của mô hình (7.26) được trình bày

trong Bảng 7.18.

Giả định tính hiệu lực của mô hình cho thời gian đang xem xét, kết quả cho thấy số nhân

tác động của một thay đổi đơn vị trong DPI lên PCE là khoảng 0.82. Nếu thay đổi đơn vị

này được duy trì, thì số nhân dài hạn, theo phương trình (7.27), là khoảng 0.984641. Như

được kỳ vọng, số nhân dài hạn lớn hơn số nhân ngắn hạn. Vì thế, một sự gia tăng một

đôla trong DPI được duy trì cuối cùng sẽ làm tăng PCE trung bình khoảng 98 cent.

Bảng 7.18: Ước lượng OLS của mô hình (7.26).

Để cho phép khả năng tương quan chuỗi trong hạng nhiễu, chúng ta ước lượng lại mô

hình trong Bảng 7.18 bằng cách sử dụng thủ tục HAC. Kết quả được trình bày trong Bảng

7.19.

Thủ tục HAC không làm thay đổi đáng kể các sai số chuẩn ước lượng, có lẽ điều này cho

chúng ta biết rằng vấn đề tương quan chuỗi trong ví dụ của chúng ta có thể không quá

nghiêm trọng.

Chúng ta để cho bạn đọc thử các giá trị độ trễ p và q khác nhau trong mô hình ARDL(p,q)

cho dữ liệu của chúng ta và so sánh các kết quả với mô hình ARDL(1,1).

41 Số nhân dài hạn = (B0 + B1)/(1 – A1) = (0.8245 – 0.6329)/(1 – 0.8053) = 0.9846 (xấp xỉ).

Page 48: hương 7 - vi.vnp.edu.vn

48

Bảng 7.19: Ước lượng OLS của mô hình (7.26) với các sai số HAC.

[Diễn giải: Mô hình ARDL(p,q) có thể được biến đổi thành mô hình ECM (cơ chế hiệu

chỉnh sai số). Mô hình ECM thể hiện rất rõ cả mối quan hệ ngắn hạn và dài hạn giữa Y

và X].

ECM CHỈ LÀ MỘT BIẾN THỂ CỦA ARDL

• ECM: Mô hình hiệu chỉnh sai số (error correction model)

• ARDL: Mô hình tự hồi quy có phân phố trễ (autoregressive distributed lag).

Yt = A0 + A1Yt-1 + B0Xt + B1Xt-1 + ut (1)

Trừ hai vế của phương trình (1) cho Yt-1, và sắp xếp lại, chúng ta có:

Yt–Yt-1 = A0 + A1Yt-1 – Yt-1 + B0Xt – B0Xt-1 + B0Xt-1 + B1Xt-1 + ut

Yt = A0 – (1–A1)Yt-1 + B0Xt + (B0+B1)Xt-1 + ut

= B0Xt – (1–A1)

+−

−− −− 1t

1

10

1

01t X

)A1(

)BB(

)A1(

AY + ut

= B0Xt – (1–A1) ( )1t1t XY −− −− + ut

= B0Xt – ( )1t1t XY −− −− + ut (2a)

= B0Xt – ECTt-1 + ut (2b)

Chúng ta có thể áp dụng logic tương tự cho tất cả các mô hình ARDL. Phần bên trong

ngoặc đơn của phương trình (2a) là số hạng hiệu chỉnh sai số (tức là ECT hoặc ut-1). Các

phương trình (2a hoặc 2b) được biết với tên gọi phổ biến là mô hình hiệu chỉnh sai số

Page 49: hương 7 - vi.vnp.edu.vn

49

(ECM). Vì thế, ECM và ARDL về cơ bản là như nhau nếu các chuỗi thời gian Yt và Xt tích

hợp (tức dừng) đồng bậc [thường là I(1)] và đồng liên kết.

Trong mô hình này, Yt và Xt được giả định trong mối quan hệ cân bằng dài hạn, nghĩa là,

thay đổi của Yt theo thay đổi của Xt trong dài hạn chính là hệ số . Nếu Yt-1 chệch ra khỏi

giá trị cân bằng của nó, thì sẽ có một sự điều chỉnh để kéo trở lại vị trí cân bằng. Tốc độ

điều chỉnh (speed of adjustment) là hệ số = (1-A1), nằm trong khoảng 0 < < 1.

Dự báo

Chúng ta sử dụng mô hình (7.26) như thế nào cho việc dự báo? Giả sử chúng ta muốn

dự báo PCE cho 1961, nghĩa là sau một giai đoạn so với năm 1961 (dữ liệu mẫu của

chúng ta kết thúc ở năm 1960). Nghĩa là, chúng ta muốn ước lượng PCE1961. Chúng ta

có thể di chuyển mô hình tới phía trước một giai đoạn như sau:

Ở đây, chúng ta biết các giá trị của Y1960 và X1960. Nhưng chúng ta không biết các giá trị

của X1961 và u1961. Chúng ta có thể ước – đoán X1961 hoặc có được giá trị của nó từ bất

kỳ phương pháp dự báo nào được thảo luận ở chương 16 về dự báo kinh tế. Chúng ta

có thể cho giá trị u1961 bằng 0. Như vậy, sử dụng các giá trị ước lượng của các tham số

từ Bảng 7.19, chúng ta có thể ước lượng giá trị ước lượng của PCE1961.

Một thủ tục tương tự có thể được sử dụng để dự báo nhiều giai đoạn phía trước của

PCE. Nhưng chúng ta để cho bạn đọc tự tìm các giá trị bằng số để dự báo PCE cho một

giai đoạn phía trước và nhiều giai đoạn phía trước.

Các nhận xét cuối cùng

Trong phần này chúng ta đã thảo luận ba mô hình hồi quy trạng thái động: các mô hình

tự hồi quy, phân phối trễ, và phân phối trễ tự hồi quy. Trước hết chúng ta xem xét một

trật tự không xác định (DLM), nhưng bởi vì phức tạp trong việc ước lượng một số lượng

không xác định các tham số nên chúng ta chuyển mô hình DLM thành một mô hình tự

hồi quy thông qua thủ tục chuyển hóa Koyck. Với một ví dụ bằng số về chi tiêu cho tiêu

dùng cá nhân thực và thu nhập khả dụng cá nhân thực của Mỹ giai đoạn 1960 – 2009,

chúng ta đã chỉ ra các mô hình này được ước lượng như thế nào, với lưu ý các giả định

cơn bản của các mô hình này và một số vấn đề liên quan đến việc ước lượng.

Chúng ta cũng thảo luận một mô hình phân phối trễ tự hồi quy đơn giản ARDL(1,1), đây

là một một mô hình kết hợp các tính chất của hai mô hình tự hồi quy và mô hình phân

phối trễ, và chỉ ra chúng ta có thể tính toán các số nhân ngắn hạn và dài hạn như thế

nào theo một sự gia tăng đơn vị trong giá trị của một biến giải thích. Chúng ta cũng thảo

luận các giả định cơ bản của mô hình này và một số các thủ tục khi ước lượng. Chúng ta

Page 50: hương 7 - vi.vnp.edu.vn

50

cũng thảo luận ngắn gọn các dự báo cho các giai đoạn tương lai có thể được thực hiện

như thế nào dựa trên các mô hình ARDL.

Chủ đề về các mô hình hồi quy trạng thái động khá rộng và phức tạp về mặt toán học.

Trong phần này, chúng ta chỉ mới chạm vào các đặc điểm cơ bản của các mô hình như

thế. Để tìm hiểu thêm về các mô hình này, chúng tôi khuyên bạn đọc xem thêm các tài

liệu tham khảo.

7.11 Tóm tắt và kết luận

Chúng ta đã nghiên cứu rất nhiều về các chủ đề thực tiễn trong mô hình hóa kinh tế

lượng ở chương này.

Nếu chúng ta bỏ sót một (hoặc các) biến thích hợp khỏi một mô hình hồi quy, thì các hệ

số ước lượng và các sai số chuẩn của các ước lượng OLS trong mô hình dạng rút gọn bị

chệch cũng như không nhất quán. Chúng ta đã xem xét các kiểm định RESET và nhân tử

Lagrange (LM) để phát hiện mô hình có bỏ sót biến thích hợp hay không.

Nếu chúng ta đưa các biến không cần thiết vào mô hình, thì các ước lượng OLS của mô

hình mở rộng vẫn BLUE. Cái giá duy nhất mà chúng ta phải trả là giảm tính hiệu quả (tức

là tăng các sai số chuẩn) của các hệ số ước lượng.

Dạng hàm thích hợp của một mô hình hồi quy là một câu hỏi thường gặp trong thực tế.

Cụ thể, chúng ta thường đối mặt với một lựa chọn giữa mô hình tuyến tính và mô hình

log-tuyến tính. Chúng ta đã chỉ ra làm sao chúng ta có thể so sánh giữa hai mô hình khi

ra quyết định lựa chọn, sử dụng dữ liệu hàm sản xuất Cobb-Douglas cho 50 bang ở Mỹ

và thủ đô Washington, như một ví dụ.

Các lỗi do sai dạng mô hình là một vấn đề phổ biến trong nghiên cứu thực nghiệm, đặc

biệt nếu chúng ta phụ thuộc vào dữ liệu thứ cấp. Chúng ta đã chỉ ra các hậu quả của các

lỗi như thế có thể rất nghiêm trọng nếu chúng tồn tại trong các biến giải thích, vì trong

trường hợp đó các ước lượng OLS không còn nhất quán. Các lỗi đo lường không gây ra

vấn đề nghiêm trọng nếu chúng xuất hiện ở biến phụ thuộc. Tuy nhiên, trong thực tế,

không dễ để phát hiện các lỗi do đo lường. Phương pháp sử dụng các biến công cụ,

được thảo luận trong chương 19, thường được đề xuất như một biện pháp khắc phục

cho vấn đề này.

Nói chung chúng ta sử dụng dữ liệu mẫu để rút ra suy diễn thống kê về tổng thể thích

hợp. Nhưng nếu có các quan sát không bình thường hoặc quan sát có giá trị bất thường

trong dữ liệu mẫu, thì các suy diễn dựa trên các dữ liệu như thế có thể mắc sai lầm. Vì

thế, chúng ta cần quan tâm đặc biệt đối với các quan sát nằm ngoài. Trước khi chúng ta

loại bỏ các quan sát bất thường, chúng ta phải rất cẩn thận để nhận biết tại sao các

quan sát bất thường hiện diện trong dữ liệu. Đôi khi, chúng có thể do các lỗi của con

người trong khi ghi chép và sao chép dữ liệu. Chúng ta đã minh họa vấn đề các quan sát

Page 51: hương 7 - vi.vnp.edu.vn

51

bất thường với dữ liệu về hút thuốc và tử vong do ung thư phổi trong một mẫu của 42

bang và thủ đô Washington ở Mỹ.

Một trong những giả định của mô hình hồi quy tuyến tính chuẩn cổ điển là hạng nhiễu

trong mô hình hồi quy theo phân phối chuẩn. Giả định này không thể luôn luôn đúng

trong thực tế. Chúng ta đã chỉ ra rằng miễn là các giả định của mô hình hồi quy tuyến

tính cổ điển được thỏa mãn, và nếu cỡ mẫu lớn, thì chúng ta có thể vẫn sử dụng các

kiểm định ý nghĩa t và F cho dù hạng nhiễu không theo phân phối chuẩn.

Cuối cùng, chúng ta thảo luận vấn đề chệch do tính đồng thời, lỗi này xảy ra nếu chúng

ta ước lượng một phương trình gắn trong một hệ các phương trình đồng thời bằng

phương pháp OLS thông thường. Nếu chúng ta áp dụng OLS một cách mù quán trong

trường hợp này, thì các ước lượng OLS bị chệch cũng như không nhất quán. Có nhiều

phương pháp thay thế khác để ước lượng các phương trình đồng thời, chẳng hạn như

phương pháp bình phương bé nhất gián tiếp (ILS) hoặc phương pháp bình phương bé

nhất hai bước (2SLS). Trong chương này, chúng ta đã chỉ ra phương pháp ILS có thể

được sử dụng như thế nào để ước lượng hàm chi tiêu cho tiêu dùng trong mô hình

Keynes giản đơn về xác định nhân tố quyết định tổng thu nhập./.

PHỤ LỤC

Sự không nhất quán của các ước lượng OLS của hàm tiêu dùng

Ước lượng OLS của khuynh hướng tiêu dùng biên được cho bởi công thức OLS thông

thường là:

Trong đó, c và y là các độ lệch so với các giá trị trung bình của chúng, ví dụ: ct = Ct - C.

Bây giờ thế phương trình (7.8) vào phương trình (1), chúng ta có:

Ở đây, chúng ta tận dụng sự thật rằng yt = 0 và Ytyt/yt2 = 1.

Lấy kỳ vọng phương trình (2), chúng ta có:

Page 52: hương 7 - vi.vnp.edu.vn

52

Vì E, toán tử về kỳ vọng, là một toán tử tuyến tính, nên chúng ta không thể lấy kỳ vọng

của số hạng thức hai dạng phi tuyến trong phương trình này. Trừ khi số hạng cuối bằng

0, thì b2 là một ước lượng không chệch. Có phải sự không chệch biến mất khi cỡ mẫu

tang lên vô cùng? Nói cách khác, là ước lượng OLS là nhất quán? Nhớ lại rằng một ước

lượng được cho là nhất quán nếu giới hạn xác suất của nó (tức plim) bằng giá trị thực

của tổng thể của nó. Để tìm ra điều này, chúng ta lấy giới hạn xác suất (plim) của phương

trình (3):

Ở đây, chúng ta tận dụng các tính chất của toán tử plim cho rằng plim của một hằng số

(chẳng hạn B2) chính hằng số đó và plim của một tỷ số của hai đối tượng là tỷ số của

plim của các đối tượng đó.

Khi cỡ mẫu n tăng lên vô cùng, chúng ta sẽ thấy rằng:

Ở đây, u2 và y

2 lần lượt là phương sai (của tổng thể) của u và Yt.

Vì B2 (MPC) nằm giữa 0 và 1, và vì hai phương sai là dương, nên rõ ràng là plim(b2) sẽ

luôn luôn lớn hơn B2, nghĩa là, b2 sẽ ước lượng quá mức B2, không cần biết cỡ mẫu lớn

bao nhiêu. Nói cách khác, không chỉ b2 bị chệch mà nó còn không nhất quán./.