section 2.2 correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點...

12
Section 2.2 Correlation 相相相相

Post on 19-Dec-2015

229 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。

Section 2.2

Correlation相關係數

Page 2: Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。

散佈圖 138 5.558 7.826 3.426 2.655 7.135 3.3

19.4 3.153 6.565 7.221 2.8

22.5 3.662 7.336 4.742 5.5

23.5 3.442 6.145 6.438 6.7

23.5 442 3.624 3.654 5.828 3.6

10

20

30

40

50

60

70

2 3 4 5 6 7 8 9 10

1數列

Page 3: Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。

散佈圖 238 5.558 7.826 3.426 2.655 7.135 3.3

19.4 3.153 6.565 7.221 2.8

22.5 3.662 7.336 4.742 5.5

23.5 3.442 6.145 6.438 6.7

23.5 442 3.624 3.654 5.828 3.6

-40

-20

0

20

40

60

80

100

120

-5 -3 -1 1 3 5 7 9 11 13 15

1數列

Page 4: Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。

散佈圖的盲點• 兩座標軸的刻度不同,散佈圖的外觀呈現的相聯性強度,會有不同的感受。

• 散佈圖 2 相聯性看起來比散佈圖 1 來得強。

• 以統計數字相關係數做為客觀標準。

Page 5: Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。

相關係數 (Correlation)

• 兩數量變數的相關係數,是衡量兩變數線性關係強度及方向的數值,定義如下: – 兩變數分別為 X 及 Y ,資料配對為 (xi, y

i) i = 1, 2, …, n– 其平均數與標準差分別為 與 sX, 與 sY。則相關係數 r 定為

x y

n

iY

i

X

i

s

yy

s

xx

nr

1))((

1

1

Page 6: Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。

相關係數的特性• 相關係數中,兩變數並不區分解釋變數或反應變數。

• 相關係數的計算以數量變數為主,此公式不適用於類別變數。

• 相關係數的計算使用標準化值,與各數量變數的度量單位無關。

Page 7: Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。

相關係數的特性 ( 續 )

• 相關係數為正表示兩變數具正相聯性,相關係數為負表示兩變數具負相聯性。

• 相關係數 r ,其數值必為 與 1 之間。– r 接近 0 表示兩變數的線性關係薄弱。– 兩變數的線性關係強度,隨著 r 由 0 移向

或 1 而增強。– r 接近 或 1 表示散佈圖的點呈近乎直線。 r 等於 或 1 表示散佈圖的點全在直線上。

Page 8: Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。

相關係數的特性 ( 再續 )

• 相關係數僅能衡量的兩變數的線性關係,對其他曲線關係的強度無法提供訊息。

• 相關係數值受離群點 (outliers) 影響很大。– 圖 2.7 中相關係數 r = 0.634 ,去除 Alaska與 District of Columbia 兩點後 r 變成 0.783 。

Page 9: Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。

線性關係的強度• 安裝太陽能,對節省家庭暖氣成本效果的研究:– 月平均瓦斯消耗量與平均日加溫度數之散佈圖,呈強度線性正相聯性。 r = 0.9953 。

• 美國各州教育資料研究– 高中畢業生選考百分比與 SAT 數學平均分數之散佈圖,呈強度線性負相聯性。 r = 0.8581 。

Page 10: Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。

線性關係的不同強度之 r

Page 11: Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。

線性關係的不同強度之 r4273 565 558 8607 521 513 474428 525 521 282510 566 550 631878 495 511 453823 536 538 303274 507 504 79725 508 495 66

3數列607 521 513 474428 525 521 282510 566 550 631878 495 511 453823 536 538 303274 507 504 79725 508 495 66543 489 473 50

607 521 513 474428 525 521 282510 566 550 631878 495 511 453823 536 538 303274 507 504 79725 508 495 66543 489 473 50

607 521 513 474428 525 521 282510 566 550 631878 495 511 453823 536 538 303274 507 504 79725 508 495 66

4273 565 558 8607 521 513 474428 525 521 282510 566 550 631878 495 511 453823 536 538 303274 507 504 79725 508 495 66543 489 473 50

4273 565 558 8607 521 513 474428 525 521 282510 566 550 631878 495 511 453823 536 538 303274 507 504 79725 508 495 66

r = 0

r = 0.6

r = 0.97

r = 0.3

r = 0.5

r = 0.8

Page 12: Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。

例 2.7 Scoring Divers

• Two judges, Ivan and George• Score scale: from 1 to 10• Subjective• Correlation between their scores is r = 0.9• The mean of Ivan’s scores is 3 points lower than

George’s mean• Is the score system fair?

– Yes, if both of them rate all divers.– No, if some are rated by Ivan and some are by George.