2016.9.24診断精度の系統的レビューワークショップ事前課題 ...
TRANSCRIPT
事前課題:質の評価とアウトカム
兵庫県立尼崎総合医療センター臨床研究推進ユニット
辻本啓、辻本康、片岡裕貴
2
復習:検査の臨床疑問を構造化は今回はこれを使います
PI(C)OT(ぴこてぃー)
P: 対象患者 (patient: どんな検査をすでに受けて、どのようなプレゼンテーションか )I: みたい検査 (index test: 目的は代替 ?/add on?/triage?)C: みたい検査と比較する検査 (comparator)O: 診断精度の指標 (outcome)T: みたい病気を定義するもの (target condition)
3
復習:感度とは a/(a+c)
病気 合計
あり なし
検査
(+) 真陽性 a 偽陽性 b a+b
(-) 偽陰性 c 真陰性 d c+d
合計 a+c b+d a+b+c
+d
4
復習:特異度とは d/(b+d)
病気 合計
あり なし
検査
(+) 真陽性 a 偽陽性 b a+b
(-) 偽陰性 c 真陰性 d c+d
合計 a+c b+d a+b+c
+d
5
復習: ROC 曲線とは?
感度
特異度Cochrane Handbook for Systematic Reviews of Diagnostic Test Accuracy Chapter 10 Analysing and Presenting Results
6
診断精度のシステマティックレビューにおける質とは?
診断精度の推定値が受ける臨床的異質性の影響診断精度の推定値が受けるバイアスの影響
レビューで導いた推定値が1. どれだけ妥当な値か2. レビュークエッションとどれだけ適合した研究から導き出されたか
1次研究の評価
レビューの評価
7
事前学習 後半の目標
• 診断研究においてのバイアスについて説明出来る
• QUADAS-2 tool を用いて一次研究の Quality of studies/Applicability to review question を評価できる
• 診断研究のアウトカムの基礎について説明出来る
8
診断精度研究においてのバイアスとは?
9
検査の対象患者によってバイアスが生じる
病気
あり なし
検査
(+) 真陽性 偽陽性
(-) 偽陰性 真陰性
検査が”病気か病気でないか”区別しやすい集団になされると生じる例:重症よりの集団で検査する>偽陰性は減少し、感度は over-estimateされる
10
検査の対象患者によってバイアスが生じる
病気
あり なし
検査
(+) 真陽性 偽陽性
(-) 偽陰性 真陰性
検査が”病気か病気でないか”区別しやすい集団になされると生じる例:病気なしの集団が”超健康”な場合は病気なしの集団が他の鑑別となりうる疾患を持つ場合と比較し>偽陽性は減少し、特異度は over-estimateされる
ここが難しい:リサーチクエッションに一致していれば超健康と病気という構図でも問題ない
11
対象患者が知りたい状況とずれているとバイアスになる
スペクトラムバイアスと言います病気あり、病気なしの集団の状況が系統的レビューのリサーチクエッションの状況と一方でもずれているとバイアスになる
12
患者”選択”が偏ることによって生じるバイアス
ランダムや連続サンプリングでない場合患者や臨床家の”好み”でサンプリング診断困難の患者を除外や逆に過剰にサンプリング
例ケースコントロール型デザインTwo-gate 型のデザイン
13
Index test の解釈に伴うバイアス
例虫垂炎の CT の診断精度を手術所見を reference standard として調べた場合CT の読影者が手術所見を知っていた
病気
あり なし
検査
(+) 真陽性 偽陽性
(-) 偽陰性 真陰性
偽陽性、偽陰性ともに減少することが予想>感度、特異度ともに over-estimateされる<ここが難しい >バイアスの程度は index testの結果解釈がどれだけ客観的な性質をもつかによる!!
14
Index test に伴う影響はどうなるでしょう
例虫垂炎の CT の診断精度を手術所見を reference standard として調べた場合CT が手術所見を含むすべての臨床状況を知らない状況で読影された
病気
あり なし
検査
(+) 真陽性 偽陽性
(-) 偽陰性 真陰性
<ここが難しい >レビューのリサーチクエッションがどのような状況の診断精度を調べたいのかによる!!
15
Index test のカットオフに伴うバイアス
例血液検査の BNP 値のようにカットオフ以下を陰性、以上を陽性とする場合
・研究解析時に至適カットオフ値が定められた場合
16
Reference standard によるバイアス
Reference standard =研究においてtarget condition を定義するもの
17
不完全な Reference standard によるバイアス
病気
あり なし
検査
(+) 真陽性 偽陽性
(-) 偽陰性 真陰性
・ index test で陽性だったが、 reference standard で”見逃し”が起きた>偽陽性に分類されてしまう
・ index test で陰性だったが、 reference standard が”間違えて”陽性だった>偽陰性に分類されてしまう
18
検査のタイミングに関わるバイアス
Index test
Reference standard
治療病気の状態の変化自然治癒
19
Partial verification bias
Reference standard 合計
あり なし
Index
test
(+) 真陽性
1000偽陽性100
a+b
(-) 偽陰性 200
真陰性 3000
c+d
合計 a+c b+d a+b+c+
d
20
Partial verification bias
Reference standard 合計
あり なし
Index
test
(+) 真陽性
1000偽陽性100
a+b
(-) 偽陰性 200
→100
真陰性 3000
→1500 c+d
合計 a+c b+d a+b+c
+d
高額の検査なので index test( -)の人の半分だけ Reference standardの検査をする場合
21
Partial verification bias
Reference standard 合計
あり なし
Indextest
(+) 真陽性 1000
偽陽性100
a+b
(-) 偽陰性 200
→100
真陰性 3000
→1500 c+d
合計 a+c b+d a+b+c+d
感度 91% (1000/1100)に over-estimationもともと 83% (1000/1200)だったのに・・・問題点!ランダムに半分になっていないと解析で調整しようがない
22
Partial verification bias
Reference standard 合計
あり なし
Indextest
(+) 真陽性 1000
偽陽性100
a+b
(-) 偽陰性 200
→100
真陰性 3000
→1500 c+d
合計 a+c b+d a+b+c+d
特異度 83% (500/600)に under-estimationもともと 91% (1000/1100)だったのに・・・問題点!ランダムに半分になっていないと解析で調整しようがない
23
Differential verification bias
Reference standard
あり なし
Indextest
(+) 真陽性 偽陽性
(-) 偽陰性 真陰性
手術Follow up
例:虫垂炎の CTの診断精度研究の場合
Follow upで偽陰性者が自然軽快し、真陰性に変化
24
二つの検査の比較の研究の場合 (Comparator ありの場合 )
感度
特異度
・MRI・ CT
25
二つの検査の比較の研究の場合 (Comparator ありの場合 )
感度
特異度
・MRI・ CT
・MRI
検査の流れでCTをうけてからMRIをうける場合
26
二つの検査の比較の研究の場合 (Comparator ありの場合 )
感度
特異度
・MRI・ CT
・MRI・ CT
CT、MRIの結果が互いに blindされていなかった
27
二つの検査の比較の研究の場合 (Comparator ありの場合 )
感度
特異度
・MRI・ CT
・MRI
・ CT
互いの影響が予測できないことも多い
28
バイアスまとめ
• 診断研究においてのバイアスは研究結果の系統的な診断精度の”ずれ”のことである
• 診断精度の over-estimation や under-estimation につながる
• 偏った患者選択、結果の Blinding やどのテストを受けたのかのフローチャートを書くことが key である
• 検査同士の比較はお互いの Blinding ができていないと Bias が生じる
29
事前学習 後半の目標
• 診断研究においてのバイアスについて説明出来る
• QUADAS-2 tool を用いて一次研究の Quality of studies/Applicability to review question を評価できる
• 診断研究のアウトカムの基礎について説明出来る
30
QUADAS-2 ツールは診断検査のバイアスを評価するツール
Risk of Bias1. 患者選択の評価2. 対象検査3. 比較検査4. 検査のフロー / タイミングApplicability5. 患者選択の評価6. 対象検査7. 比較検査
※ 適宜リサーチクエッションに応じて改変することが求められている
QUADAS-2 ツールの特徴
①4つのドメインを設定した
② 一次研究について・ Bias の Risk (内的妥当性)と・レビューの RQへの Applicability の2つにわけて評価した
31
フェーズ1:レビューの RQ を整理
< 今回練習で行ってもらう RQ>P: プライマリケアの場で心不全が疑われる患者I: 追加精査のスクリーニングとしての BNPC: 他の BNPT:専門家パネルの診断による心不全O: 感度・特異度など
32
フェーズ2:各レビュー用に QUADAS-2 を調整
33
1. ツール内容の調整
2. 評点の明確なガイドを作成
3. 少数の研究に対して適用
4. QUADAS-2評価をすべての研究に適用評価者間の一致が良好
一致が少ないツール内容 /評価ガイドの改良
フェーズ2
QUADAS-2 ツールの Tailoring の詳細はWS当日に取り扱います。
34
フェーズ 3 :フローダイアグラム
35
1. 心不全症状@プライマリケア現場
2. 病歴と身体診察
3. BNPの測定
4. 心エコー /レントゲン /ECGを見て専門家パネルが診断
<ポイント >途中で脱落がないか、全員が同じ検査を受けているかなど、患者組み入れから評価までのフローチャートを描くことが求められている
36
フェーズ 4 で大事な考え方病気は”幅”をもつ
心不全 健常人
心臓のしんどさ
アスリート重症心不全
“ イメージ図”
37
あくまでイメージ図 “区別しやすそう”
Introduced biasあり・ケースコントロールデザイン・診断が簡単にできない人を除外心不全による ICU入院中の患者 健常人
心臓のしんどさ
38
患者層が検査の診断精度に影響することがわかっています
Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical Evidence of Design-Related Bias in Studies of Diagnostic Tests. JAMA J Am Med Assoc. 1995;273(11):408–12.
39
例 : Applicability “?” のイメージ図
例:検査を適用して区別したい患者はプライマリケアの呼吸苦患者だった
心不全による ICU入院中の患者 健常人
心臓のしんどさ
みたい層
40
例: I のドメインでバイアスがありそう
• 事前に BNPのカットオフ値を決めずに心エコーの結果をみてから最適なカットオフ値を決めた (解釈バイアス )• Reference standardの結果を Blindして
BNP結果が解釈されているか
41
例: I の Applicability “?”
• 研究用に NASAの最新機器で BNP検査• 全例右房留置カテーテルから採血採取
42
例: C のドメインでバイアスがありそう
• BNP高値の結果に驚いて心エコーを何度も行って専門家に念入りに相談した• Index testの結果が Blindされているか
43
例: Flow とタイミングのドメインでバイアスがありそう
• 10人ほど心エコーを省略して一ヶ月後のカテーテル検査で代替
44
QUADAS-2ツールの Tailoring
リサーチクエッションに応じて少し改変することが求められている
→詳しくは当日
45
事前学習の目標
• QUADAS-2 tool を用いて一次研究の Quality of studies/Applicability to review question を評価できる
• 診断研究のアウトカムの基礎について説明出来る
46
診断研究のアウトカム
正確に診断するだけでは真に患者さんのアウトカムは改善しない
心不全 健常人
心臓のしんどさ
既報で減塩介入したら予後がよくなったライン既報で外来フォローしたら予後がよくなったライン
47
いろいろなアウトカム
DORC 統計量感度特異度陽性尤度比陰性尤度比真のアウトカム (?)
48
DOR は 1 つの値で診断精度を示す
( 真陽性 x 真陰性 )/( 偽陽性 x 偽陰性 )=( 感度 x 特異度 )/{(1- 感度 )x(1- 特異度 )}
病気 合計
あり なし
検査
(+) 真陽性 a 偽陽性 b a+b
(-) 偽陰性 c 真陰性 d c+d
合計 a+c b+d a+b+c+d
49
C 統計量も DOR も欠点がある
=ROC 曲線の曲線下面積大小を比較することで感度、特異度を合わせた優劣を比較できる
欠点(= DOR も同様)感度 90%, 特異度 70% の検査と感度 70%, 特異度 90% の検査が同等に扱われる ※ 本当は感度と特異度の臨床的重要度は setting によってそれぞれ変わるばず ex) 見逃せない疾患
50
陽性尤度比、陰性尤度比
陽性尤度比= ( 真陽性 / 検査陽性者 )陰性尤度比= ( 真陰性 / 検査陰性者 )検査の結果によってどれだけ事後確率が変わるかが、“利用者”に非常にわかりやすい※ 適用したい状況での有病率を想定したら事後確率と比較できわかりやすい<欠点>値がそれぞれの研究においての有病率に左右されるため解釈が難しい
51
真のアウトカムを考える
検査によって病気、正常と正しく分類されることによる利益が間違って分類されることによる害を上回るか?
ex) 入院中の急性呼吸不全の D-dimer 陽性患者に肺塞栓を疑い、追加精査をした
多少、誤って病気と判断する害より正しく診断できる利益が大きい
52
アウトカムをメタアナリシスする場合
一次研究の有病率に左右されない感度、特異度を重み付けて統合することが一般的です
詳しくは WS当日行います
53
事前学習 後半の目標
• 診断研究においてのバイアスについて説明出来る
• QUADAS-2 tool を用いて一次研究の Quality of studies/Applicability to review question を評価できる
• 診断研究のアウトカムの基礎について説明出来る
参考文献• 『臨床研究の道標』 福原俊一 2013• 2015/8/29DTA-SR 1dayWS@ 尼崎総合医療センター講義スライド 山本舜悟『診断研究のアウトカム』 後藤禎人『診断精度の系統的レビュー』
• 杉岡隆ほか 『診断法を評価する ( 臨床家のための臨床研究デザイン塾テキスト )』
• 相原 守生 診療ガイドラインのための GRADE システム 第二版
• Handbook for DTA Reviews [internet] available from http://srdta.cochrane.org/handbook-dta-reviews
• Leeflang MM, Davenport CF, Takwoingi Y, Deeks JJ. Sources of bias. Lesson 6.1: Cochrane Collaboration DTA Online Learning Materials. The Cochrane Collaboration, October 2014. Videocast (32 slides, 26 minutes, sound, colour). Available at <http://training.cochrane.org>.
• Davenport CF, Leeflang MM, Takwoingi Y, Deeks JJ. Use of QUADAS-2. Lesson 6.3: Cochrane Collaboration DTA Online Learning Materials. The Cochrane Collaboration, September 2014. Videocast (39 slides, 24 minutes, sound, colour). Available at http://training.cochrane.org.
• QUADAS-2: A Revised Tool for the Quality Assessment of Diagnostic Accuracy Studies.• Johannes C et al. 2011 Clinical Utility of Three B-Type Natriuretic Peptide Assays for the Initial
Diagnostic Assessment of New Slow-Onset Heart Failure.http://www.sciencedirect.com/science/article/pii/S1071916411001734
• Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical Evidence of Design-Related Bias in Studies of Diagnostic Tests. JAMA J Am Med Assoc. 1995;273(11):408–12.
54