prml11 sup
TRANSCRIPT
PRML11章 サンプリング補遺
サンプリングの意義がいまいちわらかない君へ贈る バイオインフォ周辺における使用例
マルチプルアライメント
複数の配列を同時にアライメント • DPで最適解を解くには、「配列の長さの本数乗」で計算量が大きい。
• 現状のマルチプルアライメントは種々のヒューリスティックを使って求めている。(よって最適解ではない)
• ギブスサンプリングを使う手もある。
ギブスサンプリングでMA 1. 適当に初期化 2. ランダムに1本選択 3. その配列のオフセットをアライメントスコアなどに基づいた確率分布からサンプリング 4. 繰り返し
1 2 3
オフセット
何らかの距離
多サンプルのgenotypeから haplotypeを推定する
Haplotypeとは • 背景:haplotypeとは – 同一染色体上に存在する塩基の組み合わせ
Haplotypeを推定する • Haplotypeを実験的に決定することは難しい。 • Genotypeは比較的得やすい。 • Haplotypeの連鎖不平衡等により多様性は低く、個人間で似ていると期待される。
• 以上の背景から、多サンプルのgenotypeを取得し、それを説明できる多様性の低いhaplotypeの組み合わせを求めたい。
• ハプロタイプの可能な組み合わせはSNPの数で指数関数的に増えるので、解析的に解くのは大変なので、サンプリングを用いる。
ギブスサンプリングを用いる手法
• 適当に各genotypeに一致する全サンプルのhaplotypeを初期化
• 適当にⅠ個人を選択し、haplotypeを以下の基準に基づきサンプリング – Haplotypeは個人間で共通していると期待されるので、他の人がもつhaplotypeに似たようなhaplotypeが選ばれるような確率に基づく。(実際には組み替えも考慮している。)
• どんどん、haplotypeを更新していく。
系統樹推定
系統樹をMCMCで推定する 1. 初期化 2. 現時点の系統樹を部分的に変化させた系統樹候補を作る 3. データ(距離行列等)をもとにした確率で受理確率が決まる 4. 繰り返す
A A C G A C
枝のつけ替え等
A A C A G C
何らかのモデルに基づいた確率に基づいて受理or棄却
タンパク質立体構造予測
タンパク質立体構造をMCMCで予測する
• 系統樹と同様のアプローチ
1. 現時点での立体構造に基づいた、立体構造候補を作成 2. もとの立体構造と、候補の各自由エネルギーに基づいて受理or棄却
細胞の動態シミュレーション
※思いつきで書いてるので、間違っているかも
細胞の動態シミュレーションとは • 細胞の時系列の動きを観測したい。 • でも直接観測することは難しこともある。
• 細胞の形のパラメータ(張力など)という部分的な情報から、サンプリングを用いて時系列変化をシミュレーションする。 • 個人的疑問 – 微分方程式と確率モデルとの使い分けってどうやるんだろうね。
多分、こんな感じ
• 細胞の歪度などからエネルギーが計算でき、それに基づいたサンプリングをする?
• ほんとは新しく頂点ができたり消えたりがあるよ
細胞 細胞
ランダムに頂点を選択し、 位置をサンプリング