2016.9.24診断精度の系統的レビューワークショップ事前課題 ...

事前課題：質の評価とアウトカム

兵庫県立尼崎総合医療センター臨床研究推進ユニット

辻本啓、辻本康、片岡裕貴

2

復習：検査の臨床疑問を構造化は今回はこれを使います

PI(C)OT（ぴこてぃー）

P: 対象患者　 (patient: どんな検査をすでに受けて、どのようなプレゼンテーションか )I: みたい検査 (index test: 目的は代替 ?/add on?/triage?)C: みたい検査と比較する検査 (comparator)O: 診断精度の指標 (outcome)T: みたい病気を定義するもの (target condition)

3

復習：感度とは　 a/(a+c)

病気合計

ありなし

検査

(+) 真陽性　 a 偽陽性　 b a+b

(-) 偽陰性　 c 真陰性　 d c+d

合計 a+c b+d a+b+c

+d

4

復習：特異度とは　 d/(b+d)

病気合計

ありなし

検査




+d

5

復習： ROC 曲線とは？

感度

特異度Cochrane Handbook for Systematic Reviews of Diagnostic Test Accuracy Chapter 10 Analysing and Presenting Results

6

診断精度のシステマティックレビューにおける質とは？

診断精度の推定値が受ける臨床的異質性の影響診断精度の推定値が受けるバイアスの影響

レビューで導いた推定値が1. どれだけ妥当な値か2. レビュークエッションとどれだけ適合した研究から導き出されたか

１次研究の評価

レビューの評価

7

事前学習　後半の目標

• 診断研究においてのバイアスについて説明出来る

• QUADAS-2 tool を用いて一次研究の Quality of studies/Applicability to review question を評価できる

• 診断研究のアウトカムの基礎について説明出来る

8

診断精度研究においてのバイアスとは？

9

検査の対象患者によってバイアスが生じる

病気

ありなし

検査

(+) 真陽性　偽陽性　

(-) 偽陰性　真陰性　

検査が”病気か病気でないか”区別しやすい集団になされると生じる例：重症よりの集団で検査する＞偽陰性は減少し、感度は over-estimateされる

10

検査の対象患者によってバイアスが生じる

病気

ありなし

検査



検査が”病気か病気でないか”区別しやすい集団になされると生じる例：病気なしの集団が”超健康”な場合は病気なしの集団が他の鑑別となりうる疾患を持つ場合と比較し＞偽陽性は減少し、特異度は over-estimateされる

ここが難しい：リサーチクエッションに一致していれば超健康と病気という構図でも問題ない

11

対象患者が知りたい状況とずれているとバイアスになる

スペクトラムバイアスと言います病気あり、病気なしの集団の状況が系統的レビューのリサーチクエッションの状況と一方でもずれているとバイアスになる

12

患者”選択”が偏ることによって生じるバイアス

ランダムや連続サンプリングでない場合患者や臨床家の”好み”でサンプリング診断困難の患者を除外や逆に過剰にサンプリング

例ケースコントロール型デザインTwo-gate 型のデザイン

13

Index test の解釈に伴うバイアス

例虫垂炎の CT の診断精度を手術所見を reference standard として調べた場合CT の読影者が手術所見を知っていた

病気

ありなし

検査



偽陽性、偽陰性ともに減少することが予想＞感度、特異度ともに over-estimateされる<ここが難しい >バイアスの程度は index testの結果解釈がどれだけ客観的な性質をもつかによる！！

14

Index test に伴う影響はどうなるでしょう

例虫垂炎の CT の診断精度を手術所見を reference standard として調べた場合CT が手術所見を含むすべての臨床状況を知らない状況で読影された

病気

ありなし

検査



<ここが難しい >レビューのリサーチクエッションがどのような状況の診断精度を調べたいのかによる！！

15

Index test のカットオフに伴うバイアス

例血液検査の BNP 値のようにカットオフ以下を陰性、以上を陽性とする場合

・研究解析時に至適カットオフ値が定められた場合

16

Reference standard によるバイアス

Reference standard ＝研究においてtarget condition を定義するもの

17

不完全な Reference standard によるバイアス

病気

ありなし

検査



・ index test で陽性だったが、 reference standard で”見逃し”が起きた＞偽陽性に分類されてしまう

・ index test で陰性だったが、 reference standard が”間違えて”陽性だった＞偽陰性に分類されてしまう

18

検査のタイミングに関わるバイアス

Index test

Reference standard

治療病気の状態の変化自然治癒

19

Partial verification bias

Reference standard 合計

ありなし

Index

test

(+) 真陽性　

1000偽陽性100

a+b

(-) 偽陰性　200

真陰性　3000

c+d

合計 a+c b+d a+b+c+

d

20



ありなし

Index

test

(+) 真陽性　

1000偽陽性100

a+b

(-) 偽陰性　200

→100

真陰性　3000

→1500 c+d


+d

高額の検査なので index test（ -）の人の半分だけ Reference standardの検査をする場合

21



ありなし

Indextest

(+) 真陽性　1000

偽陽性100

a+b

(-) 偽陰性　200

→100

真陰性　3000

→1500 c+d

合計 a+c b+d a+b+c+d

感度 91% (1000/1100)に over-estimationもともと 83% (1000/1200)だったのに・・・問題点！ランダムに半分になっていないと解析で調整しようがない

22



ありなし

Indextest

(+) 真陽性　1000

偽陽性100

a+b

(-) 偽陰性　200

→100

真陰性　3000

→1500 c+d


特異度 83% (500/600)に under-estimationもともと 91% (1000/1100)だったのに・・・問題点！ランダムに半分になっていないと解析で調整しようがない

23

Differential verification bias

Reference standard

ありなし

Indextest



手術Follow up

例：虫垂炎の CTの診断精度研究の場合

Follow upで偽陰性者が自然軽快し、真陰性に変化

24

二つの検査の比較の研究の場合 (Comparator ありの場合 )

感度

特異度

・MRI・ CT

25


感度

特異度

・MRI・ CT

・MRI

検査の流れでCTをうけてからMRIをうける場合

26


感度

特異度

・MRI・ CT

・MRI・ CT

CT、MRIの結果が互いに blindされていなかった

27


感度

特異度

・MRI・ CT

・MRI

・ CT

互いの影響が予測できないことも多い

28

バイアスまとめ

• 診断研究においてのバイアスは研究結果の系統的な診断精度の”ずれ”のことである

• 診断精度の over-estimation や under-estimation につながる

• 偏った患者選択、結果の Blinding やどのテストを受けたのかのフローチャートを書くことが key である

• 検査同士の比較はお互いの Blinding ができていないと Bias が生じる

29





30

QUADAS-2 ツールは診断検査のバイアスを評価するツール

Risk of Bias1. 患者選択の評価2. 対象検査3. 比較検査4. 検査のフロー / タイミングApplicability5. 患者選択の評価6. 対象検査7. 比較検査

※ 適宜リサーチクエッションに応じて改変することが求められている

QUADAS-2 ツールの特徴

①４つのドメインを設定した

② 一次研究について・ Bias の Risk （内的妥当性）と・レビューの RQへの Applicability　　　の２つにわけて評価した

31

フェーズ１：レビューの RQ を整理

< 今回練習で行ってもらう RQ>P: プライマリケアの場で心不全が疑われる患者I: 追加精査のスクリーニングとしての BNPC: 他の BNPT:専門家パネルの診断による心不全O: 感度・特異度など

32

フェーズ２：各レビュー用に QUADAS-2 を調整

33

1. ツール内容の調整

2. 評点の明確なガイドを作成

3. 少数の研究に対して適用

4. QUADAS-2評価をすべての研究に適用評価者間の一致が良好

一致が少ないツール内容 /評価ガイドの改良

フェーズ２

QUADAS-2 ツールの Tailoring の詳細はWS当日に取り扱います。

34

フェーズ 3 ：フローダイアグラム

35

1. 心不全症状＠プライマリケア現場

2. 病歴と身体診察

3. BNPの測定

4. 心エコー /レントゲン /ECGを見て専門家パネルが診断

<ポイント >途中で脱落がないか、全員が同じ検査を受けているかなど、患者組み入れから評価までのフローチャートを描くことが求められている

36

フェーズ 4 で大事な考え方病気は”幅”をもつ　　　　

心不全健常人

心臓のしんどさ

アスリート重症心不全

“ イメージ図”

37

あくまでイメージ図　“区別しやすそう”

Introduced biasあり・ケースコントロールデザイン・診断が簡単にできない人を除外心不全による ICU入院中の患者健常人


38

患者層が検査の診断精度に影響することがわかっています

Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical Evidence of Design-Related Bias in Studies of Diagnostic Tests. JAMA J Am Med Assoc. 1995;273(11):408–12.

39

例 : Applicability “?” のイメージ図

例：検査を適用して区別したい患者はプライマリケアの呼吸苦患者だった

心不全による ICU入院中の患者健常人


みたい層

40

例： I のドメインでバイアスがありそう

• 事前に BNPのカットオフ値を決めずに心エコーの結果をみてから最適なカットオフ値を決めた (解釈バイアス )• Reference standardの結果を Blindして

BNP結果が解釈されているか

41

例： I の Applicability “?”

• 研究用に NASAの最新機器で BNP検査• 全例右房留置カテーテルから採血採取

42

例： C のドメインでバイアスがありそう

• BNP高値の結果に驚いて心エコーを何度も行って専門家に念入りに相談した• Index testの結果が Blindされているか

43

例： Flow とタイミングのドメインでバイアスがありそう

• 10人ほど心エコーを省略して一ヶ月後のカテーテル検査で代替

44

QUADAS-２ツールの Tailoring

リサーチクエッションに応じて少し改変することが求められている

→詳しくは当日

45

事前学習の目標



46

診断研究のアウトカム

正確に診断するだけでは真に患者さんのアウトカムは改善しない

心不全健常人


既報で減塩介入したら予後がよくなったライン既報で外来フォローしたら予後がよくなったライン

47

いろいろなアウトカム

DORC 統計量感度特異度陽性尤度比陰性尤度比真のアウトカム (?)

48

DOR は 1 つの値で診断精度を示す

( 真陽性 x 真陰性 )/( 偽陽性 x 偽陰性 )=( 感度 x 特異度 )/{(1- 感度 )x(1- 特異度 )}

病気合計

ありなし

検査




49

C 統計量も DOR も欠点がある

=ROC 曲線の曲線下面積大小を比較することで感度、特異度を合わせた優劣を比較できる

欠点（＝ DOR も同様）感度 90%, 特異度 70% の検査と感度 70%, 特異度 90% の検査が同等に扱われる　※ 本当は感度と特異度の臨床的重要度は setting によってそれぞれ変わるばず　 ex) 見逃せない疾患

50

陽性尤度比、陰性尤度比

陽性尤度比＝ ( 真陽性 / 検査陽性者 )陰性尤度比＝ ( 真陰性 / 検査陰性者 )検査の結果によってどれだけ事後確率が変わるかが、“利用者”に非常にわかりやすい※ 適用したい状況での有病率を想定したら事後確率と比較できわかりやすい<欠点>値がそれぞれの研究においての有病率に左右されるため解釈が難しい

51

真のアウトカムを考える

検査によって病気、正常と正しく分類されることによる利益が間違って分類されることによる害を上回るか？

ex) 入院中の急性呼吸不全の D-dimer 陽性患者に肺塞栓を疑い、追加精査をした

多少、誤って病気と判断する害より正しく診断できる利益が大きい

52

アウトカムをメタアナリシスする場合

一次研究の有病率に左右されない感度、特異度を重み付けて統合することが一般的です

詳しくは WS当日行います

53





参考文献• 『臨床研究の道標』　福原俊一　 2013• 2015/8/29DTA-SR 1dayWS@ 尼崎総合医療センター講義スライド　　山本舜悟『診断研究のアウトカム』　　後藤禎人『診断精度の系統的レビュー』

• 杉岡隆ほか『診断法を評価する ( 臨床家のための臨床研究デザイン塾テキスト )』

• 相原　守生　診療ガイドラインのための GRADE システム第二版

• Handbook for DTA Reviews [internet] available from http://srdta.cochrane.org/handbook-dta-reviews

• Leeflang MM, Davenport CF, Takwoingi Y, Deeks JJ. Sources of bias. Lesson 6.1: Cochrane Collaboration DTA Online Learning Materials. The Cochrane Collaboration, October 2014. Videocast (32 slides, 26 minutes, sound, colour). Available at <http://training.cochrane.org>.

• Davenport CF, Leeflang MM, Takwoingi Y, Deeks JJ. Use of QUADAS-2. Lesson 6.3: Cochrane Collaboration DTA Online Learning Materials. The Cochrane Collaboration, September 2014. Videocast (39 slides, 24 minutes, sound, colour). Available at http://training.cochrane.org.

• QUADAS-2: A Revised Tool for the Quality Assessment of Diagnostic Accuracy Studies.• Johannes C et al. 2011 Clinical Utility of Three B-Type Natriuretic Peptide Assays for the Initial

Diagnostic Assessment of New Slow-Onset Heart Failure.http://www.sciencedirect.com/science/article/pii/S1071916411001734

• Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical Evidence of Design-Related Bias in Studies of Diagnostic Tests. JAMA J Am Med Assoc. 1995;273(11):408–12.

54

http://srdta.cochrane.org/handbook-dta-reviews

http://srdta.cochrane.org/handbook-dta-reviews

http://training.cochrane.org/



http://www.sciencedirect.com/science/article/pii/S1071916411001734

http://www.sciencedirect.com/science/article/pii/S1071916411001734

2016.9.24診断精度の系統的レビューワークショップ事前課題 ...

Health & Medicine