醫學研究中常見的統計應用及誤用 · 醫學研究常用統計方法 •...

醫學研究中常見的統計應用及誤用

慈濟醫學中心/研究部王仁宏/Paul Wang

[email protected]

分機17651

課程目標

• 溫故回顧醫學研究常見的統計觀念

– 統計是什麼?

– 統計如何應用到醫學研究?

– 常見的統計方法及概念

• 解讀&評論判斷醫學研究結果的合理性

– 避免統計方法誤用

– 避免統計分析結果解讀錯誤

Outline

• Part I.統計學簡介– 統計是什麼?

– 統計跟醫學研究的關係?

– 資料蒐集(母體vs樣本)

• Part II.醫學研究常用統計方法– 敘述統計、推論統計、差異比較

– 相關、迴歸分析、質性資料分析

• Part III.研究結果要如何解讀?

PART I.統計簡介

統計是什麼?

資料

資訊知識

•統計是從數據中找出訊息並且做成結論!!•統計是幫助我們透過客觀的資料分析來瞭解變異來源的一門科學!!

產生數據

整合數據

解釋推論+ +

為什麼要學習統計?-- 用科學的方法來促進專業的進步

當新治療方法、藥物、設計或介

入發展出來時，關鍵問題是

“它有用嗎?”

文獻回顧資料收集

統計分析專業解釋結果

Make Decision

統計與醫學研究的關係

實證醫學

流行病學

生物統計學

•描述流行病學假說的研擬與篩選•分析流行病學假說的辨明與修訂•實驗性流行病學假說的實證與確立•仔細審視思考醫學問題•正確的研究設計確保資料收集品質

•敘述性統計研究對象特性描述•推論統計從樣本所獲得資訊說明母體•科學化整理分析呈現證據•合理的歸納與推論實證醫學發現

應用領域：醫學或公共衛生等

好的”研究設計” + ”統計分析”正確且有意義的臨床發現

母體與樣本

壞樣本的毛病1.對調查母體沒有定義清楚2.母體裡面的個體有些永遠不可能被抽中

產生數據

壞樣本的例子

• 1.便利抽樣碰到誰就問誰的抽樣– Ex:在新光三越的前廣場進行訪問

• 壞處：母體對象沒有定義，而且有些個體不會被抽中

• 2.自願樣本自動送上門來的樣本– Ex:電話叩應、Yahoo奇摩新聞意見調查

• 壞處：一個人可以重覆許多次，導致有灌水的問題

• 3.立意抽樣依照本身的主觀判斷去挑樣本– Ex:訪問對核能發電具有專業知識的人士

• 壞處：專業人士的意見是否足以代表一般人的意見?

• 4.配額選樣– 把調查對象依照特徵分類後，依各類比例立意找人到額滿為止

• 壞處：容易受到訪員主觀選擇受訪者的影響，對於推論的正確性傷害相當大

產生數據

非機率抽樣!!

觀察性 vs 實驗性資料

資料性質特徵可推論的方法 Example

觀察性順其自然相關分析(Correlation)

醫院欲紀錄患有高血壓症狀之住院病患之狀況，每天請護士測量並照實紀錄

實驗性操之在我因果分析(Causal)

醫院欲測量降血壓的新藥之療效，得到病患同意後，每日給予病患治療，並記錄病患血壓

產生數據

Ex:病歷回顧

Ex:臨床試驗

醫學研究常用統計方法• 針對醫學護理類搜尋20～30篇論文，將其統計方法整理如下：

80/20法則

學會•描述統計•ANOVA

•t檢定/卡方檢定•皮爾森相關•迴歸分析就具備九成功力!!

整合數據 & 解釋推論

PART II.醫學研究常用統計方法敘述統計、推論統計、差異比較相關、迴歸分析、質性資料分析

描述統計-- 統計量 & 統計圖

統計量集中區勢、離散趨勢•Mean

•Median

•Mode

•Max/Min

•Quartile(Q1,Q3)

•Range

•Standard Deviation

目的：讓分析者可以在短時間內瞭解資料的分佈狀況與訊息Histogram

Pie Chart

Boxplot

Part 1

極端值的影響•這個籃球隊教練在考：究竟應該公布”隊平均身高180cm”嚇對手，還是”隊員身高中位數173cm”讓對手失去戒心?

??

平均數易受極端值的影響，尤其在數字個數少的時候影響更大!!

Part 1

存活率的迷思• 健保局2007年5月公布各醫院器官移植存活率，以心臟移植五年存活率來看：

– 三總85% 、振興73% 、林口長庚70% 、台大65% 、北榮55%看來三總是首選?

若加上案例數，三總15/85% 、振興148/73% 、林口長庚11/70% 、台大195/65% 、北榮59/55%選擇是否改觀?

振興優於台大?病患的病況及背景是否大致接近無法得知

讀到一項統計數據時，應注意上下文，弄清楚該統計量真正的意義才能夠避免被誤導!!

Part 1

母體與樣本

PopulationX1, X2,…,XN

Samplex1,…,xn

Parameter Statistics

推論

Inference

描述

Descriptive

Sampling

Experiment

母體樣本

統計量參數

Part 2

H0 vs H1

假設檢定(Hypothesis Testing)• 假設(Hypothesis)H0(Null) vs H1(Alternative)

– 統計假設的架構，與刑事訴訟法中的無罪推定原則(被告未經審判證明有罪確定前，推定其為無罪)類似!!

– 對立假設是研究者期望發現的

– 虛無假設是被保護的，除非證據夠強，否則不輕易推翻現況

• 檢定檢定統計量、臨界值、P-value

• 結論接受(Accept) or 拒絕(Reject)

• Example(2010世足賽的章魚哥)

– “章魚不可能預測比賽結果”(瞎矇)

– H0:章魚哥猜對機率=1/2

– H1:章魚哥猜對機率>1/2

Part 2

假設檢定的流程

• Step 1.決定虛無假說與對立假說

• Step 2.決定顯著水準(α)

– Type I error發生機率 ex:0.05, 0.01

• Step 3.選擇檢定統計量

• Step 4.收集資料，計算檢定統計量及P值

• Step 5.進行決策判定

– 實際上顯著與不顯著間並沒有一個真正的標準

– P值越小，表示我們得到越強的證據能力

Part 2

統計推論所產生的風險

決策事實(永遠不知)

H0:無罪 H1:有罪

無法推翻H0犯人無罪

決策正確 Type II error(縱虎歸山)

推翻H0犯人有罪

Type I error

(錯殺忠良)決策正確

利用樣本證據來對假說進行決策時，難免會因為樣本的偏差而發生判斷錯誤的情況!!

•Type I error亦稱做消費者風險(ex:沒有效的藥被批准上市)•Type II error亦稱做生產者風險(ex:有效的藥無法上市)[註]應注意是否有measurement error, bias, confounding 等情況發生!!

Part 2

P-value的迷思：顯著與非常顯著問題:在很多統計方法裡都會看到p值，通常在許多期刊表格的下方都會看到*p

假設檢定(Hypothesis Testing)• P-value 與Sample Size的關係:

A group : mean = 0 , stdev = 1

B group : mean = 0.4 , stdev = 1

Sample size = 5 , P-value = 0.599

Sample size = 50 , P-value =0.044 Sample size = 200 , P-value < 0.001

Part 2

A、B兩個母體平均差異固定，但隨著樣本數增加，檢定p-value越來越顯著!!

Sample size = 10 , P-value = 0.230

A B

0.4

統計學意義 (statistical significance)與臨床意義 (clinical significance)的差別

Part 2

一般治療 B藥

A藥

•A藥相較於一般治療方式存活時間平均增加2年，P值

差異比較(1/3)• 統計學家發明了許多統計檢定方法

– 單一樣本檢定平均數Z test(σ已知), T test(σ未知)

– 兩組樣本檢定平均數Independent T Test

Paired T Test

中位數Kruskal-Wallis Test(非常態)

Mean 有差異

A B

Variation 有差異

A

B

Part 2

差異比較(2/3)– 兩組或多組樣本檢定平均數

• 方法一、利用T Test進行兩兩比較”過度檢定”(overtesting)

需要選擇合適的顯著水準，讓Overall Type I error控制

• 方法二、變異數分析(ANOVA, F-test)檢定所有組別平均數是否有顯著差異的整體量測方式

前提假設

1. 所有觀測值是獨立的每個觀測值彼此不相關

2. 每一組內觀測值呈常態分布

3. 變異同質性每一組內變異數與他組相同

ANOVA只要樣本數夠大、每組樣本數相近效果就不錯!!

Part 2

For 2 Groups

F=t2

T Test的誤用

34%

常見誤用情況：對於三組以上的資料，每次取兩組比較，針對所有組合比較Example:比較A藥、B藥控制下病人的血糖值(A藥組、B藥組、對照組)

A藥組 vs B藥組 α=0.05A藥組 vs 對照組 α=0.05B藥組 vs 對照組 α=0.05 Overall Type I error=3*0.05=15%(結論有15%的機率會是錯誤的!!)

Part 2

差異比較(3)– 多組樣本檢定平均數，若ANOVA發現有差異(i.e.至少有一組平均數之間有差異存在)，如何發現差異在哪?事後分析(Post-hoc Test)/多重比較

• Bonferroni Test 組數多過於保守

• Holm t Test 較Bonferroni不保守,有較大檢定力

• Tukey test低估偵測顯著差異

• Student-Newman-Keuls Test(SNK Test)過度偵測顯著差異

• Scheffe Test

• Fisher’s LSD Test太過自由

• Duncan’s Multiple Range Test

Part 2

目前各類統計方法各有優/缺點及適用時機!!

信賴區間(Confidence Interval)

母體樣本

N(μ, σ2) nNX2

,~

信賴區間可以幫助我們估計未知參數的值並告訴我們估計的不確定程度有多大!!

μ落在此區間的機率為95%

Part 2

怎麼比，才有效?

Part 2

專家說：”成長期的兒童若營養攝取不足，會影響他的成年身高” Why? How?

方案一、觀察瓜地馬拉鄉下兒童吃到的食物約美國兒童的一半，這些兒童長到七歲時，平均身高比美國同齡兒童矮約15 cm/體重輕約5 kg，之後差距還會拉大(1960)

方案二、INCAP(WHO底下的研究單位)選了瓜國四個村莊分成兩組分別施予蛋白質及高熱量的A飲料及不含蛋白質及低熱量的B飲料，並登記兒童飲用量(1969)

衛生條件、醫療設備、疾病盛行、種族差異、父母經濟能力等因

素未考量!!

結論：瓜國鄉下兒童與美國兒童的成長差異，主要是由蛋白質的攝取量造成Finding平均來看，多攝取1磅可以多成長0.1 cm ，美國與瓜國兒童成長到七歲蛋白質攝取量差距約150磅可以解釋方案一之發現

兩個變數之關係

• 使用時機

– 研究常需同時審視兩個變項的資料(ex:身高、體重)• 兩個變項之間是否有關連(relationship)

• 關連的強弱

• 統計圖形散佈圖(Scatter Plot)

• 統計量相關係數(Correlation Coefficient)

– 瞭解兩個變項之間的線性關係

Part 3

當兩個變項之間存有某種連動的變化趨勢，則稱他們之間是相關的

相關性的強弱

Part 3

完全正相關完全負相關

正相關負相關

沒有直線關係沒有直線關係但有非線性相關

可用相關係數(r)的大小進行判斷越接近+1 or -1代表線性相關程度越強!!

各種相關係數

• 皮爾森相關係數(Pearson correlation coefficient)

– 主要是測量兩連續變數間關係的強弱

• 斯皮爾曼等級相關係數(Spearman rank C.C.)

– 主要是測量兩等級變項間關係的強弱

需符合常態假設

不需常態假設

Part 3

相關係數範例Example：分析孩童注射疫苗比率的高低與死亡率是否相關?

方法一皮爾森相關係數

• r = -0.79

• t = -5.47

p-value

相關係數使用注意事項Q ：假如我們取樣1000筆資料，研究兩個變數之間的相關性，得到相關係數為r=-0.06 (p0.75 強相關(good to excellent relationship)

Part 3

相關≠因果

•即使相關係數數值很高且達顯著統計意義，這並不表示兩個連續變項具有因果關係。•兩變項間是否為一因果關係，應是依臨床或學理來決定。

Part 3

相關≠因果的例子

• 台灣彩券針對近197位中獎五百萬元以上者進行分析，發現每期都購買、且在住家附近下注，中獎率超過三成。其中，已婚、男性、四十歲到四十九歲、O型、射手座等特質中頭獎機率最高，跟北富銀時代比較，除了星座外，其餘特質皆相同。

相關不代表因果

2007.05奇摩新聞-- 大樂透連六槓,上看3億,射手O型已婚男中獎率最高

Part 3

一致性 vs 相關性• 相關性(Correlation)

– 如果資料點完全落在任何一直線上即是完美相關(r=1)!!

• 一致性(Agreement)

– 完美的一致性需要所有資料點全落在平等線!!

Bland-Altman Difference Plot

兩種量測的平均值

兩種量測的差異

若>95%的點落在此區間一致

Part 3

一致性分析範例-- 利用心臟超音波評估二尖瓣閉鎖不全

RF(逆流分率)

Objective：分析兩種測量方法是否一致?

r=0.89代表兩種方法差不多，但是沒有量化其一致性!!

利用Bias(Doppler-Cath) vs平均值，判斷兩種測量方法沒有系統偏差且相當一致!!

Part 3

迴歸分析(Regression)• 迴歸(regression)

– 以一個自變項(independent variable)的變化來預測或解釋另一個應變項(dependent)的變化

• 1.以身高來預測體重

• 2.以指考成績來預測大一第一學期的成績

• 3.以年齡來預測血中膽固醇濃度

• 4.預測食鹽攝取量對血壓值的影響

• 5.以氣溫來預測飲料的銷售量

Part 3

有相關並非證明有因果關係

Part 3

相關係數與迴歸分析

Part 3

相關係數與迴歸分析的限制

• 無法有效測量一個非線性關係的強度

• 當樣本數n很小時(n

當用相關或迴歸聯繫兩個變數時

•必須檢視樣本資料作成的圖，以瞭解資料是否符合統計方法之假設。•兩變項間是否為一因果關係，應是依臨床實驗或學理來決定。

Part 3

統計與因果

Part 3

1. 即使兩個變數間有很強的關聯，也不代表改變其中一個變數的值會導致另

一個變數的改變。2. 兩個變數之間的關聯，常常受其他潛在背景中的潛在變數(Z)影響。3. 建立因果關係最好的證據，來自隨機化比較實驗(RCT)。

X Y

因果關係

X Y

Z

共同反應

X Y

Z

?

?

交絡

Example：看電視會延年益壽?(胡說相關)X:平均每人電視機數Y:國民平均餘命Z:國家財富

Example：胖媽媽和胖女兒X:媽媽BMIY:女兒BMIZ:其他因素(生活習慣)

因果證據Q:當我們不能做實驗時，能確立因果關係的標準在哪?

– 相關很強 ex:吸菸和肺癌之間的相關性很強

– 相關有一致性 ex:不同國家對不同人所做的研究都一致

– 較高劑量和較強反應有關 ex:吸菸較多或菸齡較長更常得病

– 被懷疑的原因在時間上早於結果(時序性)• 肺癌是在吸菸多年後才顯現的

• 吸菸人口越普遍後，死於肺癌的人數才上升

– 被懷疑的原因是可信的(生物贊同性) ex:動物實驗結果顯示，吸菸產生的焦油的確會致癌

Part 3

因果證據強度還是比不上用設計完美的實驗所得到的證據

出處Hill AB. The Environment and Disease: Association or Causation?Proceedings of the Royal Society of Medicine. 1965;58:295-300.

此篇文章2010被YJBM選為Five Classic Articles in Public Health!!

質性資料的分析• 質性資料特質

– 不能作個人量化量測，它是關於有沒有存在某種特質的資料，例如：有無抽菸/喝酒/嚼檳榔

– 依照感興趣的特質將資料分組，例如:高血壓、老年人

– 觀測到的是次數

– 用來將資料分組的表格稱為列聯表(Contingency Table)

• 關心什麼?

– 兩個變數有沒有相關?獨立性

– 不同族群中某項特質的分佈是否相似?同質性

– 實驗組vs對照組治療成功的比例有差?比例差異顯著性

Part 4

危險因子有疾病沒有疾病總計

有暴露 a b a+b

沒有暴露 c d c+d

分析方法• 樣本為獨立樣本卡方檢定

– 2X2列聯表，所有格子的期望值都要大於5

– 更大的列聯表，各格的期望值不要小於1，且期望值小於5的格數不要超過20%

– 如果發生上述情況，應採用Fisher Exact Test

• 樣本為配對或非獨立McNemar’s Test

– 適用時機：Matched 、Before-and-after design

發生車禍前後是否習慣性繫安全帶?

1

2

Part 4

[註]O：觀測值E：期望值(在H0成立計算的結果)

辛普森詭論(Simpson’s Paradox)

• Example: 入學審核有性別歧視? (E. H. Simpson, 1951)

Part 4

內容：在某個條件下的兩組數據，分別討論時都會滿足某種性質，可是一旦合併考慮，卻可能導致相反的結論。

電機工程

男女

通過 30 10

拒絕 30 10

總和 60 20

英文

男女

通過 5 10

拒絕 15 30

總和 20 40

合併

男女總和

通過 35 20 55

拒絕 45 40 85

總和 80 60 140

+

男女申請通過比例皆50% 男女申請通過比例皆33%男>女

男申請通過比例=44%女申請通過比例=33%

當潛在變數存在時，觀察到的關聯有可能是誤導的，辛普森詭論只是這項事實的一種極端形式!!

PART III.研究結果要如何解讀?

研究結果要如何解讀?

•媒體經常披露各式各樣的研究結果，通常還加上引人注目的標題，例如：

咖啡喝多了對心臟不好酒喝多想護肝來杯茶、咖啡日本研究指出唱歌可以抗癌低脂飲食無助防癌救心?

…

咖啡喝多了對心臟不好?

臨床營養期刊說：一個人若每天喝超過一杯以上的咖啡，則當事人得到心臟病的機會會比別人高上許多!!(希臘某大學營養學者研究結果)

IF=6.6


每天喝多少咖啡?

抽血

約3000人

身體健康成人(無心血管疾病)

咖啡喝得越多，血液中的發炎因子含量越高!!

目前的研究已知：當發炎因子多時，代表體內的血液循環系統有問題

+

推論

咖啡喝得越多，對心臟越不好

正相關

因果


要點一：看研究不能只看標題，必須讀內文，瞭解研究怎麼做的!!

要點二：兩件事情有正向關聯，不代表兩者有因果關係!!

低脂飲食無助防癌救心?2006.2.9 綜合外電報導(經過剪輯內容較粗略)

低脂飲食無助防癌救心?

JAMA ：February 8, 2006, Vol 295, No. 6

此研究為美國國家衛生研究院”婦女健康促進計畫”的一部分

IF=30!!

N很大近五萬人, 長達八年追蹤蒐集的資料!!


每天吃了什麼食物?

實驗組19541人

對照組29294人

•目標：改變飲食習慣(總熱量中只有20%來自脂肪)增加蔬菜水果和穀類攝取量

18+4*7=46次

營養和健康：美國人之飲食指南

+ +道德勸說

+ +

每天吃了什麼食物?

Self-report


要點三：當一項研究所需數據，必須依賴參與研究者自己提供時，其正確性值得審慎考量!!

Review

• Part I.統計學簡介– 統計是什麼?

– 統計跟醫學研究的關係?

– 資料蒐集(母體vs樣本)

• Part II.醫學研究常用統計方法– 敘述統計、推論統計、差異比較

– 相關、迴歸分析、質性資料分析

• Part III.研究結果要如何解讀?

Reference

• 統計與生活(國立台灣大學出版中心, 2010)

• 你不能不懂的統計常識(天下文化, 2007)

• 簡明生物統計學(2nd ed.)

• Basic Statistics for the Health Sciences(5th ed.)

• Reading Statistics and Research(5th ed.)

• Understanding Statistics for Research Staff, Rachel Enriquez

• Statistical guidelines for contributors to medical journals

• Statistical errors in medical research –a review of common

pitfalls(2007)

• Applying the Right Statistics: Analyses of Measurement

Studies(2003)

• Misusage of statistics in medical research(2007)

感謝聆聽Q & A

靜思語：知識要用心體會，才能變成自己的智慧。

醫學研究中常見的統計應用及誤用 · 醫學研究常用統計方法 •...

Documents