reconstruction of clonal trees and tumor composition

25
Reconstruction of clonal trees and tumor composition from multi-sample sequencing data Mohammed El-Kebir et al 国国国国国国国国国国国 国国国国国国国 国国 国 国国国国国国国AncesTree

Upload: joe-miyamoto

Post on 21-Aug-2015

265 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Reconstruction of clonal trees and tumor composition

Reconstruction of clonal trees and tumor composition from multi-sample sequencing data

Mohammed El-Kebir et al

国立がんセンター研究所特任研究補助員

宮本 丈

ソフトウエア名: AncesTree

Page 2: Reconstruction of clonal trees and tumor composition

発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較

Page 3: Reconstruction of clonal trees and tumor composition

発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較

Page 4: Reconstruction of clonal trees and tumor composition

がんの進化モデル

• ヒトの場合、多時刻点でのデータ取得は難しい。• 進化過程の推測 -> 薬剤耐性の獲得過程などを知る

Page 5: Reconstruction of clonal trees and tumor composition

サンプリングの解像度

高コスト

低コスト

C ならば、種間の系統樹推定と同じ -> 距離が近いので、比較的簡単しかし• allelic drop out の問題• 増幅過程でのエラーの問題• コストの問題から、今のところ難しい。

A.B のどちらにも対応できる包括的な手法が求められる

A.bulk B.Multi-sample C.Single-cell

Page 6: Reconstruction of clonal trees and tumor composition

発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較

Page 7: Reconstruction of clonal trees and tumor composition

単純化のための仮定1. Cancer は単一の祖先細胞から派生したも

のと仮定2. CNA は今のところ考慮に入れない3. Infinite site assumption … 二度同じ部位に

変異が起きることはない

Page 8: Reconstruction of clonal trees and tumor composition

目標

これ から これを作る

複数の clone が混じったサンプル

F

Clone の系統樹 ( それぞれの頂点がユニークな遺伝型 )Tおよびそれぞれのサンプル中の割合 U

Page 9: Reconstruction of clonal trees and tumor composition

系統樹 T を行列表現 B に直す行  は、 T の頂点  の遺伝型を表す。

列はそれぞれの mutation を表す (0= 変異なし、 1= 変異あり )

このような B を完全系統樹行列と呼び、逆行列を持つ ( 証明略 )

さらに以下の条件を加えると、 T に対応する B はただひとつとなる

•      を満たす r はただひとつ存在する ( 上図の一番上の行 )• 一番上以外の行 j には かつ      

を満たすような k がただひとつ存在する->(i.e. 親がただひとつ存在する )

• 対角成分はすべて1

Page 10: Reconstruction of clonal trees and tumor composition

Usage Matrix U を定義するとF = ½(UB) が成り立つ

F … N( 変異箇所 )×M( サンプル数 ) の行列。要素  はサンプル p の i 番目の VAF を指すSum condition( 後述 ) を満たす

U … Usage Matrix 、 M × N の行列要素 はサンプル p におけるクローン i の割合

B … 完全系統樹行列 

既知

未知

未知

このような定式化を VAFFP(Variant Allele Frequency Factorization Problem)と呼ぶ。こうすることで色々便利になる

Page 11: Reconstruction of clonal trees and tumor composition

Sum condition

• すべてのサンプル p 及び変異 j に対して

ただし δ(vj) は、 j が頂点 v で初めて出現した時 のみ 1 、それ以外は 0

T を作るために F が満たさなければならない仮定

Page 12: Reconstruction of clonal trees and tumor composition

Sum condition の直感的説明

1サンプルでは系統樹が一意に定まらない場合も

① ②

Wei Jiao. et al(2014)

Page 13: Reconstruction of clonal trees and tumor composition

Sum condition の直感的説明

2つ目のサンプルで一意に定まる場合がある

A < B + C のため、②ではデータを説明できない。

Wei Jiao. et al(2014)

Page 14: Reconstruction of clonal trees and tumor composition

過去の論文は…• M = 1 の特殊系だったり• F が頻度ではなく 2 値だったり• 観測された F と、モデルから生成された F

の距離を最小にするもの

だったりする

これらはみな、この定式化の特殊系とみなせる

Page 15: Reconstruction of clonal trees and tumor composition

VAFFP の解き方• 各々の変異を頂点にもつ完全グラフ G(V 、 A) を考える。• その中の部分グラフ G` のうち、以下の条件をみたすものを考

えると、 G` は一意に求まる ( 証明略 )

1. 有根2. 有向3. 非巡回4. 最小全域木 (Minimum Spanning Tree)5. 対応する T が sum condition を満たす

G` を求めれば、系統樹がわかる!  

  種々の成約のもとで、辺の数を最大化 ->

             整数計画法とみなせ、 NP 完全実装は IBM の数理計画問題用 C++ ライブラリ、 CPLEX を用いて行った

Page 16: Reconstruction of clonal trees and tumor composition

VAFFP の解き方よって…以下の順に解く1. F から完全グラフ G を作成する2. G` およびそれに対応する完全系統樹行列 B を求める3. F = (1/2)UB を U について解く、

系統樹だけが知りたいのなら、2までで止めれば計算資源の削減になる

Page 17: Reconstruction of clonal trees and tumor composition

発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較

Page 18: Reconstruction of clonal trees and tumor composition

エラーを考慮に入れる

• 実際のシーケンスデータは、 VAF の頻度に誤差があり、T を作成できない場合がある。

• 祖先関係がはっきりしない変異をクラスタリングしてしまう

よって

Page 19: Reconstruction of clonal trees and tumor composition

エラーを考慮に入れる1. 観測された VAF のもとで、変異 j が変異 k の親

となる事後確率 を計算 ( 後述 )

2.                 を満たす j,kをクラスタ化

3. 変異 K,l がクラスタ間をまたがる場合は

の時のみ、親子とみなし辺を引くα… クラスタ係数β… クラスタ間結合係数、

Page 20: Reconstruction of clonal trees and tumor composition

の出し方• p,j における変異アレルの頻度を 、正常アレルの頻度

を とする

よって

• の分布    をとし

• を計算

Page 21: Reconstruction of clonal trees and tumor composition

最小全域木の仮定をゆるめる最大化すべき関数が

だったところに、罰則項を加える

に変更すると、すべての変異を選ぶ必要がなくなる。

実データでは、 CNA のせいで VAF が 0.5 を超える場合があるため

非常に有効な仮定

サンプル p 、変異 j の VAFクラスタ内の平均 VAF

Page 22: Reconstruction of clonal trees and tumor composition

今後の課題1. CNA を取り込む2. 複数回走らせ、結果を統合する (バギン

グ? ) みたいなことができるかも3. VAF の分布を β 分布で見積もるのは分散

を過小評価してしまう可能性あり (e.g. 増幅バイアス )

Page 23: Reconstruction of clonal trees and tumor composition

発表の流れ• 前提知識• 厳密な定式化• 実データへの対応• 他の論文との比較

Page 24: Reconstruction of clonal trees and tumor composition

対抗ソフトウェア• CITUP

BICベースで、 U と B を同時に求める• SciClone

VAF 頻度分布に β 混合分布を仮定して変分ベイ ズで推定?詳細不明• PhylosubVAF 頻度分布を生成するモデルを、階層混合ディリクレ過程を用いた潜在空間モデルと想定し、 MCMC でパラメータ推定 最近 CNA にも対応したもよう

Page 25: Reconstruction of clonal trees and tumor composition

他の手法より優れているところ• VAF のデータを直接使わず、事後確率でクラスタ

リングするため、 ( 特に低 Depth で ) より正確。

• すべての変異を考慮する必要がない

• 系統樹のみを求めることができる

などといろいろあるが、実際には前半の定式化が美しかったからだと思われる

議論を厳密にし、がんの系統樹推定は整数計画法の形で表せることを示した