第一章 緒論 (introduction) -...

28
第十章 相關分析 (Correlation Analysis)

Upload: others

Post on 06-Feb-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

  • 第十章 相關分析(Correlation Analysis)

  • 內容簡介-學習目標

    單元概要

    學理探討

    簡單相關分析

    多元相關分析

    討論與習題

    熟習兩變數間之關係種類與圖表意義

    熟習雙變數簡單相關分析之處理步驟與應用技巧

    熟習多變數多元相關分析之處理步驟與應用技巧

  • 線性關係的分析原理

    基本條件: 連續變項之間的關係

    線性關係 linear relationship ,指兩個變項的關係可以被一條最具代表性的直線來表達之時,所存在的關連情形。

    該直線之方程式為Y=bx+a,b為斜率(即Δy/Δx,每單位的X變動時,在Y軸上所變動的量)線性關係可以散佈圖的方式來表現

    身高

    190180170160150

    體重

    90

    80

    70

    60

    50

    40

  • 線性關係與相關

    相關(correlation)是用以檢驗兩個變項線性關係的統計技術。兩個連續變項的關聯情形,除了用散佈圖的方式來表達,尚須建立一套統計的運算檢驗模式來進行精確的分析,也即是建立一個用以描述相關情形的量數,即相關係數(coefficient of correlation)。線性關係中的斜率並不足以說明兩個變項觀察值的分佈情形。相關係數要能反應兩個變數的配對觀察值的分佈,其運算必須考慮到兩個變數各自的集中與分散狀況,以及配對分數的集中與分散狀況,將所有觀察值的分佈情形納入考慮,以共變數的概念進行。

    相關係數是一個標準化的關聯係數。其原理是先計算出兩個變項的共變量,再除去兩個變項的不同分散情形與單位差異(即標準差),加以標準化,得到的一個去除單位的標準化分數。

  • X

    Y

    cov(x,y)

    SDx2

    X

    Y

    SDy2

    相關分析的圖示

    NSS

    NXX x=−Σ=

    2)(Variance

    NYYXX ))((Covariance −−Σ=

    yx

    xy

    yx SSSSSP

    YYXX

    YYXXss

    yxr =−−Σ

    −−Σ==

    22 )()(

    ))((),cov(

  • 相關係數的特質

    1. 隨著共變數的大小與正負向,相關係數可以分為正相關(完全正相關)、負相關(完全負相關)、零相關五種情形。

    2. 相關的大小需經顯著性檢定來證明是否顯著(是否有統計上的意義)。

    3. 相關係數介於-1至1之間。4. 相關情形的大小非與r係數大小成正比5. 相關並不等於因果

    6. 相關係數沒有單位, 可以進行跨樣本的比較

  • 相關係數的強度大小與意義

    相關係數範圍(絕對值) 變項關聯程度

    1.00 完全相關

    .70 至.99 高度相關

    .40 至.69 中度相關

    .10 至.39 低度相關

    .10 以下 微弱或無相關

  • 其他類型相關分析

    史比爾曼等級相關(Spearman rank order correlation coefficient, Rho;rs)

    應用於順序變項線性關係之描述。當兩個變數中,有任一變數為順序變項時

    點二系列相關(point-biserial correlation)當X與Y兩個變項中,一為連續變項,另一為二分類別變項(如性別),兩個變項的相關係數稱為點二系列相關

    )1(61 2

    2

    −Σ

    −=NN

    Dr is

    pqs

    XXr

    t

    qppb

    −=

  • 淨相關與部份相關

    線性關係的統計控制

    如果兩個連續變項之間的關係,可能受到其他變項的干擾之時,或研究者想要把影響這兩個變項的第三個變項效果排除,可以利用控制的方式,將第三變項的效果進行統計的控制。

    淨相關

    在計算兩個連續變項X1與X2的相關之時,將第三變項(X3)與兩個相關變項的相關r13與r23予以排除之後的純淨相關,以r12.3來表示。

    部份相關

    計算X1與X2的單純相關,如果在計算排除效果之時,僅處理第三變項與X1與X2當中某一個變項的相關之時,所計算出來的相關係數,稱之為部份相關,或稱為半淨相關(semipartialcorrelation)

    223

    213

    2313123.12

    11 rr

    rrrr−−

    −=

    223

    231312)3.2(1

    1 r

    rrrr−

    −=

  • 雙變數相關分析 範例一 (郵包重量.sav)

    如前第八章練習一所述之郵購公司,其每月郵包重量及訂單數據一批如下,現該公司經理欲知兩者之間是否有明顯正比關係,試為其解答此一問題。

    註:郵包「重量」單位為公斤。訂單之單位為筆數。顯著水準為0.05。

  • EG1-解題剖析

    本題為兩變數間之相關分析問題。由表中之數據顯示,當重量增加時,訂單筆數似乎也有所增加(如第三列到第四列)。相反地,從第四到第五列,則訂單筆數相關降低。而此一現象也不盡然,例如從第一列到第二列時,重量降低,訂單筆數卻反增。

    因此必須由統計分析來剖析兩者之間的實際相關性,再由顯著水準指標是否達到來說話。而為求結論下達的更進一步精確,尚可由提高樣本數的抽取與繪圖對照來加強。

  • 操作步驟

    1. 在開啟資料檔後,先點選[分析/相關]選取「雙變數」選項。

    2. 同時標示並選取左側兩變數標籤[重量]與[訂單]準備點選右移鈕。

  • 操作步驟

    3. 在點選右移鈕後兩變數進入右側[變數]框中,再按下[確定]鈕後即可產出報表。

  • Eg1. 輸出判讀一相關分析在直接按下「確定」下,一般只顯示一組報表。

    表中首先要觀察的是相關係數是否有量號(*)表示,如有即表顯著,無則表相關性不顯著。

    通常一個星號表達0.05水準,兩個星號表達0.01顯著水準,這點可由「顯著性」列的P值與表下緣的註記可知。

  • Eg1. 結論下達

    「由樣本數據顯示,郵包重量與訂單筆數兩者之間呈顯著正相關關係。換言之,郵包的重量愈重,其相對的訂單筆數則愈多;反之亦然。」

  • 練習一 (價格策略.SAV)

    依據消費者心理學,產品的售價愈高,其市場的購買力則愈低。某業者欲瞭解其產品銷售實際情況是否亦有此一現象,遂收集得其各產品「售價」與相對的「銷售金額」一批如下,試為其做統計分析,並提出一價格策略建議以資參考。

    註:目前抽取得具代表性之樣本數一批共15筆。該等表產品多為單一價,此乃其行銷模式特色。

    相關係數值究竟係屬低、中或高

    標請參考下表。

  • 練習一 (價格策略.SAV)

    相關係數強度對照表

    相關係數值範圍 描述標準參照

    0.1~0.3 低度相關0.4~0.6 中度相關0.7~0.9 高度相關

  • 練習一 (價格策略.SAV) 解答

  • 多變數相關分析 範例二 (年收入行業.SAV)

    在二次大戰前後期間人口調查取得下列數據一批,其中涵蓋歐洲地區國家年所得與數個行業的人口資訊。今欲瞭解當時各行業別人口分佈與其年所得之關係,試做必要的相關統計分析。( α= 0.05)?

    又問

    1. 那些行業人口數與年所得成正比關係?

    2. 那些行業人口數與年所得成反比關係?

    3. 試圖解解分析結果。

  • EG2-解題剖析

    本題為多個兩組變數之間的相關性分析問題:如年所得與農業人口之間,年所得與工業人口之間等之相關分析。如每次操作僅抓取兩個變數(如前節所述),則太過繁瑣,且無法看出整體相關架構之全貌。

    所幸,SPSS可一次抓取多個變數,並迅速對任兩變數之間做相關分析計算,因此可將所有可能相關(或具有相關結果應用價值)的變數一併納入分析架構中。

  • 操作步驟

    1. 在開啟資料檔後,先點選[分析/相關]選取「雙變數」選項。

    2. 同時標示並選取左側全部變數標籤[年所得] [農業人口] [工業人口]與[服務業人口],準備點選右移鈕。

  • 操作步驟

    3. 在點選右移鈕後所有變數進入右側[變數]框中,再按下[確定]鈕後即可產出報表。

  • Eg2. 報表判讀

  • Eg2. 報表判讀(續)

    相關報表顯示為4x4的相關矩陣報表。其中從左上到右下之對角線為無可避免之自我相關比較,故其相關係數值均為1,可以不必理會。

    由表中看出,年所得與工業人口(高度相關)及服務業人口(中度相關)成顯著正相關關係。

    而年所得與農等人口數之間則呈高度負相關關係,且顯著水準均達0.01。

  • Eg2. 結論下達

    「由所得樣本數據相關性分析結果顯示,工業人口與服務業人口愈多,則該國之國民年所得愈高,反之亦然。而各國農業人口愈多,則其國民年所得愈低,反之亦然。」

    [註.]原則上兩變數間可以不必有方向性(即因果關係),例如前述結論之末句亦可改述成「國民年所得愈低,其農業人口愈多」。

    針對論文中的報表呈現或判讀,一般要力求嚴謹,例如顯著水準、相關係數值等均應予以據實報導呈現。

    相對地,在結論下達的描述時,則要儘量予以通俗化,並避免使用過多「制式的」統計用詞,以加強讀者們對問題目標之瞭解。

  • 練習二 (吸煙癌症.SAV)「吸煙會導致癌症」是眾所周知的常識,但究竟那些癌症與吸煙有密切關,那些則無,卻有待深入分析研究。在某項研究調查下,取得美國各州香煙販售量與該州數

    種癌症死亡人數資料一批如右手下:

    1. 試分析那些癌症與吸煙呈正相關,到何程度。

    2. 那些癌症與吸煙無直接或低度相

    關,何故?

  • 練習二 (吸煙癌症.SAV) 解答

  • 第十章 結束

    祝 學習愉快 !!!

    第十章 相關分析 �(Correlation Analysis) 內容簡介-學習目標 線性關係的分析原理線性關係與相關相關分析的圖示相關係數的特質相關係數的強度大小與意義 其他類型相關分析淨相關與部份相關 雙變數相關分析 範例一 (郵包重量.sav) EG1-解題剖析 操作步驟 操作步驟 Eg1. 輸出判讀一 Eg1. 結論下達練習一 (價格策略.SAV) 練習一 (價格策略.SAV) 練習一 (價格策略.SAV) 解答多變數相關分析 範例二 (年收入行業.SAV) EG2-解題剖析 操作步驟 操作步驟 Eg2. 報表判讀 Eg2. 報表判讀(續) Eg2. 結論下達練習二 (吸煙癌症.SAV) 練習二 (吸煙癌症.SAV) 解答第十章 結束