chapter 1 data and statistics -...

35
Chương 11 HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN Ths. Nguyễn Tiến Dũng Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội Email: [email protected]

Upload: others

Post on 31-Aug-2019

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

Chương 11

HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN

Ths. Nguyễn Tiến Dũng

Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội

Email: [email protected]

Page 2: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

MỤC TIÊU CỦA CHƯƠNG

● Sau khi học xong chương này, người học sẽ

● Nói được phạm vi ứng dụng của phương pháp phân

tích hồi quy và tương quan đơn biến

● Biết cách thực hiện một phân tích hồi quy dựa trên

dữ liệu mẫu

● Nói được những điều kiện và giả định cần thiết khi

phân tích hồi quy

● Biết được cách tính và ý nghĩa của hệ số tương quan

Pearson và hệ số tương quan hạng Spearman

© 2013 Nguyễn Tiến Dũng 2

Page 3: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

CÁC NỘI DUNG CHÍNH

● 11.1 LÀM QUEN VỚI HỒI QUY

● 11.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN

● 11.3 TƯƠNG QUAN TUYẾN TÍNH

● 11.4 TƯƠNG QUAN GIỮA CÁC BIẾN ĐỊNH TÍNH

© 2013 Nguyễn Tiến Dũng 3

Page 4: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.1 Làm quen với hồi quy

● 11.1.1 Khái niệm hồi quy

● Regression, Regression to mediority: quy các điểm DL đã biết về một đường

lý thuyết

● Đ/nghĩa của TK:

● NC mối liên hệ phụ thuộc giữa một biến phụ thuộc (biến đầu ra) và một hay

nhiều biến độc lập (biến đầu vào),

● nhằm ước tính hoặc dự báo giá trị trung bình tổng thể của biến phụ thuộc dựa

trên các giá trị biết trước của biến độc lập

● Hồi quy đơn biến (simple regression): 1 biến PT và 1 biến ĐL, DL định lượng

● TD:

● KQ học tập = f(thời gian tự học)

● KQ học tập = f(thời gian tự học, yêu thích chuyên ngành)

● Lượng tiêu thụ = f(P1, P2, P3, P4)

● Chất lượng sản phẩm = f(NVL, thiết bị, công nghệ, con người, quản lý)

© 2013 Nguyễn Tiến Dũng 4

Page 5: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.1.2 Phân biệt liên hệ TK và liên hệ hàm số khi phân tích hồi quy

● Liên hệ hàm số: Y = b0 + b1X

● Với 1 giá trị của X, có 1 giá trị xác định và duy nhất

của Y

● Liên hệ TK: Y = b0 + b1.X

● X = thời gian tự học; Y = điểm GPA

● DL về X: dữ liệu mẫu

● Một X, có thể có nhiều Y

● DL mẫu xác định đường HQ mẫu dự đoán

đường HQ tổng thể

© 2013 Nguyễn Tiến Dũng 5

Page 6: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

© 2013 Nguyễn Tiến Dũng 6

Page 7: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.1.3 Quy ước về ký hiệu và tên gọi

● Biến số: Y = b0 + b1.X1 + b2X2

● Biến độc lập, biến đầu vào, biến giải thích: X1, X2

● Biến phụ thuộc, biến đầu ra, biến được giải thích: Y

● Xki: giá trị của quan sát thứ i của biến Xk.

● b0, b1, b2: các hệ số của phương trình hồi quy

● Hồi quy đơn biến và hồi quy đa biến (HQ bội)

● HQ đơn biến (simple regression): 1 biến ĐL

● HQ đa biến (multiple regression): nhiều biến ĐL

© 2013 Nguyễn Tiến Dũng 7

Page 8: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.1.4 Các dạng liên hệ giữa biến độc lập và biến phụ thuộc

© 2013 Nguyễn Tiến Dũng 8

Page 9: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2 Mô hình hồi quy tuyến tính đơn

● 11.2.1 Mở đầu

● NC mối liên hệ giữa thu nhập

(X) và chi tiêu (Y)

● Lấy mẫu n hộ gia đình

● Đường hồi quy lý thuyết

● E(Y|Xi) = b0 + b1.Xi

● Yi = b0 + b1Xi + ei

● b0: hệ số tung độ gốc (hệ số

chặn)

● b1: hệ số dốc (hệ số góc)

● ei: sai số, thể hiện yếu tố nhiễu

© 2013 Nguyễn Tiến Dũng 9

Page 10: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.2 Các giả định liên quan đến yếu tố nhiễu

● Các ei tại mỗi Xi có phân

phối bình thường

● Không có sự tương quan

giữa các nhiễu, hay các ei

độc lập với nhau

© 2013 Nguyễn Tiến Dũng 10

Page 11: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.3 Ý nghĩa và cách xác định các hệ số hồi quy

● b1: hệ số độ dốc, đo lường lượng thay đổi TB trong

biến phụ thuộc Y khi X thay đổi 1 đơn vị.

● b0: hệ số tung độ gốc cho biết giá trị của Y khi X =

0, có thể coi là ảnh hưởng TB của các yếu tố khác

mà không có mặt trong mô hình

© 2013 Nguyễn Tiến Dũng 11

Page 12: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

Dữ liệu mẫu Bảng 11.1

Stt Số năm Doanh số

1 3 487

2 5 445

3 2 272

4 8 641

5 2 187

6 6 440

7 7 346

8 1 238

9 4 312

10 2 269

11 9 655

12 6 563

© 2013 Nguyễn Tiến Dũng 12

Page 13: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

Xác định các hệ số hồi quy

● Phương pháp Cực tiểu hoá

tổng bình phương của các

phần dư

© 2013 Nguyễn Tiến Dũng 13

2 2

0 1

1 1

min min ( )X

n n

i i i

i i

e Y b b

11

2

1

0 1

( )( )

( )

n

i i

i

n

i

i

X X Y Y

b

X X

b Y b X

Page 14: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.4 Tính toán các kết quả hồi quy bằng Excel

● Vẽ đồ thị Scatter Chart

© 2013 Nguyễn Tiến Dũng 14

y = 49,91x + 175,83R² = 0,6931

0

100

200

300

400

500

600

700

0 2 4 6 8 10

Do

an

h s

ố b

án

hàn

g (

triệ

u đ

ồn

g)

Số năm kinh nghiệm

Page 15: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

● Sử dụng Data Analysis

© 2013 Nguyễn Tiến Dũng 15

Page 16: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.6 Đo lường biến thiên bằng Hệ số xác định

● Hệ số xác định (Coefficient of Determination)

© 2013 Nguyễn Tiến Dũng 16

2

1

2

1

2

1

2

( )

ˆ( )

ˆ( )

n

i

i

n

i

i

n

i i

i

SST SSR SSE

SST Y Y

SSR Y Y

SSE Y Y

SSRR

SST

Page 17: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

© 2013 Nguyễn Tiến Dũng 17

Page 18: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.5 Vấn đề cần chú ý khi dự đoán với mô hình hồi quy

● Chỉ nên dự đoán 𝑌𝑖 với những giá trị Xi nằm giữa

Xmin và Xmax, hoặc không quá xa Xmin và Xmax

● Lý do: với những giá trị Xi nằm càng xa Xtb, thì sai

số khi ước lượng Yi càng lớn.

© 2013 Nguyễn Tiến Dũng 18

Page 19: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.8 Suy diễn TK về hệ số độ dốc

● 11.2.8.1 Định lý Gauss-Markov

● Giả định: PP của Y là bình thường thì PP của b0

và b1 cũng là PP bình thường

● Đ/lý Gauss-Markov

● Trong các ƯL tuyến tính không chệch cho hệ số hồi

quy tổng thể, ƯL tìm được bằng PP bình phương bé

nhất có PS cực tiểu.

© 2013 Nguyễn Tiến Dũng 19

Page 20: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.8.2 Khoảng tin cậy cho hệ số độ dốc

© 2013 Nguyễn Tiến Dũng 20

Page 21: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.8.3 KĐ ý nghĩa của hệ số độ dốc

● Cặp giả thuyết KĐ

● Chỉ tiêu KĐ tính: t = b1/sb1

● Quy tắc bác bỏ H0:

● TD:

● b1 = 49,91

● sb1 = 10,5021

● t = 4,7524

● t tra bảng: tn-2;α/2 = t10; 0,025=2,228

● Bác bỏ H0.

© 2013 Nguyễn Tiến Dũng 21

0 1

1 1

2; /2

2; /2

: 0

: 0

0Baùc boû H neáu

n

n

H

H

t t

t t

Page 22: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

© 2013 Nguyễn Tiến Dũng 22

Page 23: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.9 Phân tích phần dư

● 11.2.9.1 Kiểm tra tính đúng đắn của mô hình HQTT

● KT mối liên hệ tuyến tính:

● Vẽ đồ thị phần dư theo biến độc lập X: e = f(X)

● Nếu các điểm không tạo thành một hình mẫu cụ thể

nào thì quan hệ HQTT là đúng đắn

© 2013 Nguyễn Tiến Dũng 23

Page 24: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.9.2 KT sự vi phạm giả định PS bằng nhau

● Phương pháp đồ thị phần dư (e) theo X

● Nếu phần dư tăng dần khi X tăng lên thì có nghĩa là

phương sai của phần dư đã thay đổi vi phạm

● Phương pháp Kiểm định Park

© 2013 Nguyễn Tiến Dũng 24

Page 25: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.9.3 KT giả định PP bình thường của phần dư

● Vẽ đồ thị xác suất bình thường (Normal Probability Plot): e = e(z)

● Sử dụng Excel

© 2013 Nguyễn Tiến Dũng 25

Page 26: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

© 2013 Nguyễn Tiến Dũng 26

Page 27: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.9.4 KT tính độc lập của phần dư

● P.pháp đồ thị: vẽ đồ thị phần dư

theo trật tự các giá trị thu được theo

thời gian. Nếu không xuất hiện một

hình mẫu xác định nào có thể KL

là các phần dư độc lập với nhau.

● KĐ Durbin-Watson: Chỉ tiêu KĐ D

© 2013 Nguyễn Tiến Dũng 27

2

1

2

2

1

( )

: phaàn dö taïi quan saùt i

: soá quan saùt

Giaù trò cuûa D: 0 D 4

n

i i

i

n

i

i

i

e e

D

e

e

n

Page 28: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

© 2013 Nguyễn Tiến Dũng 28

Page 29: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

Durbin-Watson Table

© 2013 Nguyễn Tiến Dũng 29

Page 30: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.2.10 Sử dụng PT hồi quy để dự đoán giá trị TB và giá trị cá biệt của Y

● Giá trị TB

© 2013 Nguyễn Tiến Dũng 30

● Giá trị cá biệt

0 0

0 0 1 0

2

02; /2 |

2

1

ˆ( | )

ˆ

1 ( )

( )

Y

n Y X nY

i

i

E Y X Y e

Y b b X

X Xe t s

nX X

0 0

0 0 1 0

2

02; /2 |

2

1

ˆ

ˆ

1 ( )1

( )

Y

Y n Y X n

i

i

Y Y e

Y b b X

X Xe t s

nX X

Page 31: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.3 Tương quan tuyến tính

● 11.3.1 Hệ số tương quan tổng thể rho

● 11.3.2 Hệ số tương quan mẫu rXY

© 2013 Nguyễn Tiến Dũng 31

cov( , )

var( ) var( )

.

XY

XYXY

X Y

X Y

X Y

1

2 2

1 1

( )( )

.( ) ( )

n

i i

XY iXY

n nX Y

i i

i i

x x y ys

rs s

x x y y

Page 32: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

Giá trị và ý nghĩa của hệ số tương quan:

● r < 0: có mối liên hệ tỷ lệ nghịch

● r > 0: có mối liên hệ tỷ lệ thuận

● |r| > 0,8 : TQTT rất mạnh

● |r| = 0,6 – 0,8: TQTT mạnh

● |r| = 0,4 – 0,6: TQTT vừa phải

● |r| = 0,2 – 0,4: TQTT yếu

● |r| < 0,2 : TQTT rất yếu

© 2013 Nguyễn Tiến Dũng 32

Page 33: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

KĐ ý nghĩa của hệ số tương quan tuyến tính

● Cặp giả thuyết KĐ

● Chỉ tiêu KĐ

● Quy tắc bác bỏ H0

● Bác bỏ H0 nếu |t| > tn-2;α/2

● TD: Trang 345

© 2013 Nguyễn Tiến Dũng 33

0

1

: 0

: 0

H

H

22

2

11

2

r nt r

rr

n

Page 34: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

11.4 Tương quan giữa các biến định tính

● 11.4.1 Hệ số TQ hạng Spearman

● 11.4.2 Hệ số Kendall Tau

● 11.4.3 Hệ số tq đối với DL thứ bậc trong DL đã

phân nhóm (tau c, gamma, dyx và dxy)

© 2013 Nguyễn Tiến Dũng 34

Page 35: Chapter 1 DATA AND STATISTICS - nguyentiendung.yolasite.comnguyentiendung.yolasite.com/resources/tkud ch11.pdf · lý thuyết Đ/nghĩa của ... Phân biệt liên hệ TK và liên

KĐ theo hệ số tương quan hạng Spearman rS

● Biến X1 và X2 có dữ liệu thứ bậc (hoặc DL khoảng,

nhưng đã biến thành DL thứ bậc bằng cách xếp

hạng trong từng mẫu), mẫu n cặp quan sát

● Tính chênh lệch hạng di = x1i – x2i (i = 1, 2, … n)

● Tính hệ số tương quan hạng rS

● H0: Không có liên hệ giữa 2 biến (Hệ số tương

quan hạng của tổng thể = 0)

● Nếu số trường hợp có di = 0 nhiều, thì cần thêm

một hệ số hiệu chỉnh

● Nếu n > 10, PP của hệ số TQ hạng trên mẫu xấp xỉ

PP bình thường với độ lệch chuẩn là 1/(n – 1).

Chỉ tiêu KĐ sẽ là z

© 2013 Nguyễn Tiến Dũng 35

11 / 1

S

S

rz r n

n

2

1

6

1( 1)

S

n

i

i

d

rn n