it - 関西学院大学tohhiro/bioinfo18/...置換数の推定
TRANSCRIPT
バイオインフォマティクス第5回
藤 博幸
バイオインフォマティクス第5回
藤 博幸
BIO
IT
本日の講義
(1)前回の近隣結合法による系統樹構築の補足(1-1)モデル選択、モデルとは?(1-2)ブートストラップ法(1-3)Newick形式
(2)最尤法による系統樹構築外群導入による根の同定
本日の講義
(1)前回の近隣結合法による系統樹構築の補足(1-1)モデル選択、モデルとは?(1-2)ブートストラップ法(1-3)Newick形式
(2)最尤法による系統樹構築外群導入による根の同定
得られたアラインメントを使ってMEGAで系統樹を作成
(1) MEGAを起動してmafftで作成したアラインメントの読み込み
(2) MEGA形式へのデータの変換
(3) モデル選択
(1) 近隣結合法による系統樹の構築
モデル選択
モデルとは?
① Modelsをクリック
② FindBestDNA.ProteinModels(ML)をクリック
現在 activeばファイル(=hivpol.meg)を使用するかを聞いてくるウィンドウが開くYesをクリック
モデル選択の計算のオプション確認のウィンドウが開く黄色の部分がAutomaticNucleotideCompletedeletionになっていることを確認して、Computeをクリック
計算経過を示すウィンドウが開く
結果画面出力行がモデル列に情報量基準とパラメータが書かれている
BIC,AICc :情報量基準この表がBICでソートされている情報量は小さい方が良い
lnL:対数尤度大きい方が良い
BIC最小の T92+Gモデルを今回使用することにする
このウィンドウは閉じる
最も簡単な配列間距離=p距離 (p distance)
Nヌクレオチドの長さの二つの配列で、Mサイトに差異がある場合p-distance=M /N
p距離の問題点多重置換(復帰置換や平行置換を含む)
=同じサイトでの複数回の置換
------->数回分の変化が隠されてしまう
p <5%程度の時のみ、p距離は有効
TTCAAGAC
CTCAAGAC
CTTAAGAC
CTTAAAAC
CTTAGAACATTAGAACATTACAACATTACGAC
TCCAAGACTCCACGACTCTACGAC
ATTACGAC
TCTACGAC
7回3回
実際のサイトあたりの置換数 =(3+7)/8=1.25 p距離 =2/8=0.25
置換数の推定 <-----塩基置換を表現する確率モデルが必用
連続時間マルコフ連鎖 (continuous-timeMarkovchain)が良く使用される。
仮定:
(1)全てのサイトは独立に進化
(2)特定のサイトの置換 (substitution)は マルコフ連鎖で表現
(3)塩基置換速度に異なる制約 → 異なるモデル
TTCAAGACCTCAAGACCTTAAGACCTTAAAACCTTAGAACATTAGAACATTACAACATTACGAC
このサイトに着目
時刻0
時刻t
サイト5は、A→A→A→A→G→ G→C→Cと遷移している。
4種類の塩基を、このサイトのとりうる状態(state)とよぶ。状態の遷移は確率的に生じる。
マルコフ性(Markovian property):無記憶性
€
P(C |G,G,A,A,A,A) = P(C |G)次の時点の状態が何になるかは、現在の状態にのみ依存過去にとった状態が何であるかは影響しない
塩基置換のマルコフ・モデルと距離の推定JC69モデル (1)
塩基置換速度に異なる制約 → 異なるモデル
↓JC69モデル (JukesandCantor,1969)どの塩基も、任意の他の塩基に同じ速度λで変化すると仮定
瞬間置換速度行列(instantaneoussubstitution-ratematrix)を次のようにおくことで表現
€
Q = qij[ ] =
−3λ λ λ λ
λ −3λ λ λ
λ λ −3λ λ
λ λ λ −3λ
$
%
& & & &
'
(
) ) ) )
€
Q = qij[ ] =
−3λ λ λ λ
λ −3λ λ λ
λ λ −3λ λ
λ λ λ −3λ
$
%
& & & &
'
(
) ) ) )
行、列はT,C,A,Gを表す
€
q12 = λ は、T(1)からC(2)への瞬間置換速度が
λであることを表している。
※ 各行の総和は0になることに注意ある塩基iが、任意の塩基に置換される速度の総和は
€
3λ = −qii
JC69モデルによる2本の配列間の距離の推定
STEP1:配列間距離dのQによる表現
t/2
祖先配列
配列1 配列2
t配列1 配列2
(1)配列1の塩基組成を
€
π T πC πA πG( ) とする。
€
Δt(2)Qが与えられた時に時間間隔 の間に塩基iからjに変化する確率
€
= qijΔt(3)任意の塩基が他の塩基に置換される速度
€
3λ
STEP1:配列間距離dのQによる表現
t配列1 配列2
配列1と配列2の距離
€
d = π T 3λ( )t + πC 3λ( )t + πA 3λ( )t + πG 3λ( )t= π T + πC + πA + πG( ) 3λ( )t = 3λt
STEP2:JC69モデルのもとで2本の配列で差異のあるサイトの期待確率
t配列1 配列2
JC69モデルのもとでの遷移確率行列
€
P(t) = eQt =
p0(t) p1(t) p1(t) p1(t)p1(t) p0(t) p1(t) p1(t)p1(t) p1(t) p0(t) p1(t)p1(t) p1(t) p1(t) p0(t)
"
#
$ $ $ $
%
&
' ' ' '
€
p0(t) =14
+34e−4λt
p1(t) =14−14e−4λt
€
p = π T pTC(t) + π T pTA (t) + π T pTG(t) +πCpCT (t) + πCpCA (t) + πCpCG(t) +πA pAT (t) + πA pAC(t) + πA pAG(t) +πGpGT (t) + πGpGC(t) + πGpGA (t) = π T (3p1(t))+ πC(3p1(t)) + πA (3p1(t)) + πG(3p1(t))
= (π T + πC + πA + πG)(3p1(t)) = 3p1(t) =34−34
e−4λt =34−34
e−43d
(1.5)
STEP3:実測値との対応付けによる推定
配列1と配列2で差異のあるサイト数x総サイト数 n
差異のあるサイトの割合
€
ˆ p = p とおく。
€
xn
=34−34e−43d
€
e−43d
=1− 43xn
(ハットは推定値を意味する)^
€
p =xn
€
d = −34ln 1− 4
3xn
#
$ %
&
' (
€
d = −34ln 1− 4
3xn
#
$ %
&
' ( = −
34ln 1− 4
3p
#
$ %
&
' ( ^^
p > (3/4) であれば、この距離の公式は適用できない^※
K80モデルトランジション
ピリミジン間 (T<-->C)の置換プリン間 (A<-->G)の置換
トランスバージョン
プリン、ピリミジン間 (T、C<-->A,G)の置換
トランジションは、トランスバージョンより高い速度で生じている
を考慮したモデル
T C
A G
T C
A G
JC69 K80
K80モデル、あるいはKimuraの2パラメータモデルにおけるQの設定
€
− α + 2β( ) α β β
α − α + 2β( ) β β
β β − α + 2β( ) α
β β α − α + 2β( )
%
&
' ' ' '
(
)
* * * *
トランジションの置換速度 α
トランスバージョンの置換速度 β
TCAG
T CA G
(1.8)
d = − 12log(1−V − 2S)− 1
4log(1− 2V )
^
TN93
€
Q =
− α1πC +βπR( ) α1πC βπA βπGα1πT − α1πT +βπR( ) βπA βπGβπT βπC − α2πG +βπY( ) α2πGβπT βπC α2πA − α2πA +βπY( )
&
'
( ( ( (
)
*
+ + + +
ここで、
€
πY = πT +πCπR = πA +πG
ピリミジンの頻度
プリンの頻度
T C
A G
α1
α2
β
TN93の特殊なケース
TN93
HKY85
€
α1 =α2 =α
κ1 =κ2 =κあるいは
F84
€
α1 = 1+κ /πY( )β,α2 = 1+κ /πR( )β,
パラメータが1つ減る
F81
€
α1 =α2 = β
結果画面出力行がモデル列に情報量基準とパラメータが書かれている
配列間距離の推定のため、与えられたアラインメントにもっとも適したモデルを選択する
モデル:塩基置換の生じ方を記述複雑なモデルが、必ずしもて最適なモデルではない
得られたアラインメントを使ってMEGAで系統樹を作成
(1) MEGAを起動してmafftで作成したアラインメントの読み込み
(2) MEGA形式へのデータの変換
(3) モデル選択
(1) 近隣結合法による系統樹の構築
ブートストラップ法(bootstrap)
Victim(Maria)から単離されたHIVは、Robertの患者から単離されたHIVに近縁(ただし、bootstrapsupport(bootstrapprobabilityともよぶ)小さい)
ブートストラップサンプル1...
ブートストラップサンプル1000
系統樹1
系統樹1000
例えば、1000個のブートストラップサンプルから作られた系統樹の中で、ヒト、チンパジー、ボノボがクラスターを形成している回数が994回であれば、99.4%をブートストラップサポートをオリジナルの系統樹にマッピングする。
系統樹のNewickフォーマット
① Originaltreeタブを選択しオリジナルの系統樹を表示
② メニューバーのFileをクリック
③ ExportCurrentTree(Newick)を選択
Newick形式のデータを保存するファイル名を聞いてくるので、Hivpol.nwkとファイル名を指定してSaveをクリック
hivpol.nwkをメモ帳で開く(((((((((((((((V1.MIC.RT:0.00183356,V2.MIC.RT:-0.00005991)0.8910:0.00358471,P6¥.MIC.RT:-0.00000974)0.1770:0.00000487,V1.BCM.RT:-0.00000487)0.1240:0.00000487,P¥5.BCM.RT:-0.00000487)0.1580:0.00000487,V2.BCM.RT:-0.00000649)0.6510:0.00179596,¥P6.BCM.RT:-0.00002443)0.2560:0.00047535,(P3.MIC.RT:0.00247068,(P5.MIC.RT:0.0001¥0360,(P4.BCM.RT:-0.00001486,(P1.BCM.RT:0.00180051,P7.BCM.RT:-0.00002890)0.3290:¥0.00001486)0.6290:0.00167160)0.3700:0.00110497)0.1450:0.00042271)0.1300:0.00012¥758,(P2.MIC.RT:0.00692434,(P3.BCM.RT:0.00000000,P4.MIC.RT:0.00000000)0.3170:0.0¥0022865)0.3800:0.00123392)0.2950:0.00120878,P2.BCM.RT:0.00151719)0.1530:0.00021¥449,LA32.RT:0.00555837)0.1380:0.00004296,(LA08.RT:0.00517567,LA05.RT:0.01117874¥)0.4190:0.00175445)0.2030:0.00101235,P1.MIC.RT:0.00223222)0.3350:0.00231784,LA1¥8.RT:0.00719763)0.0810:0.00037487,((((LA29.RT:0.01283766,LA06.RT:0.00724592)0.3¥080:0.00136025,LA12.RT:0.00407447)0.1500:0.00100562,(LA28.RT:0.01213187,LA07.RT¥:0.00795380)0.5010:0.00248453)0.0890:0.00048663,((LA10.RT:0.00771152,LA23.RT:0.¥01441878)0.4210:0.00234077,((((LA04.RT:0.00992803,LA25.RT:0.01196780)0.2190:0.0¥0075079,LA27.RT:0.00367005)0.1520:0.00156941,(LA22.RT:0.01275031,LA30.RT:0.0111¥6664)0.2420:0.00081036)0.0260:0.00057137,((LA17.RT:0.00971516,LA13.RT:0.0103715¥9)0.5080:0.00308458,(LA31.RT:0.00767816,(LA14.RT:0.01046118,(LA21.RT:0.00708465¥,LA24.RT:0.00192401)0.8140:0.00438466)0.2290:0.00054839)0.1320:0.00076469)0.146¥0:0.00116298)0.0090:0.00046111)0.0210:0.00077806)0.0200:0.00022654)0.1420:0.001¥01897,LA16.RT:0.00625876)0.5290:0.00018712,(LA26.RT:0.00566221,LA02.RT:0.016280¥61)0.5290:0.00268962);
Newick形式とは、系統樹の情報を、テキストとして記述したもの
Newickフォーマット
(A,B,(C,D)); leaf nodes are named(A,B,(C,D)E)F; all nodes are named(A:0.1,B:0.2,(C:0.3,D:0.4):0.5); distances and leaf names (popular)(A:0.1,B:0.2,(C:0.3,D:0.4)E:0.5)F; distances and all names
http://en.wikipedia.org/wiki/Newick_format より
Newickフォーマットの表記は一意ではない
(C:0.3, D:0.4, (A:0.1, B:0.2):0.5);
1
2
3
45
((1,2),(3,4),5);
テキスト形式による系統樹の記述 - Newick format
((1,2),(4,5),3);(((1,2),3),4,5);(1,((4,5),3),2);…
Newick Formatによる系統樹表記は1通りに決まらない
1
3
4
5
2
この系統樹は、たとえば左のような複数の表記が可能である
1
3
4
5
2 1.0 3.02.0
4.0
3.02.0 2.0
((1:2.0,2:1.0):2.0,3:3.0,(4:2.0,5:4.0):3.0);
枝の長さの情報を付加した Newick Formatによる系統樹表記
1
3
4
5
21.0 3.0
2.0
4.0
3.02.0 2.0
((1:2.0,2:1.0)60 :2.0,3:3.0,(4:2.0,5:4.0)90 :3.0);
90(%)
60(%)
枝の長さの情報と Bootstrapサポートを付加したNewick Formatによる系統樹表記
本日の講義
(1)前回の近隣結合法による系統樹構築の補足(1-1)モデル選択、モデルとは?(1-2)ブートストラップ法(1-3)Newick形式
(2)最尤法による系統樹構築外群導入による根の同定
種1
種3
種2
種5種2
無根系統樹がえられる近隣結合法では進化速度の一定性は仮定されていないので、一つの内部節から分岐した外部節への枝の長さが異なることに注意
分子系統解析では、系統樹は無根系統樹として作成される。根の導入は、外群(outgroup)を用いてなされる
進化速度の一定性が成立する場合(=分子時計が成立している場合)を除き、注目するグループの根を決められない
多くの場合、分子時計の一定性は仮定できない
外群の利用研究対象である群:内群 (ingroup)内群に対して遠い関係であることがわかっているもの:外群(outgroup),
外群を含めて系統樹を構築全体としては無根系統樹だが、内群の根(root)を決めることができる。
今、種1~4(哺乳類)の系統関係を調べたい根を導入するために種5(爬虫類)を外群として導入
種5
種1
種2
種3
種4
内群の根
ブートストラップの説明図は「分子系統学への統計的アプローチ」 共立出版を改変
Newick formatは、隈啓一 京都大学化学研究所ゲノム情報解析特論 (系統樹推定法)を改変
カール•ウーズ(CarlRechard Woese,1928-2012)
rRNAを用いた分子分類や細胞の違いなどから、真正細菌とも真核生物とも異なる古細菌の存在を示唆し、3ドメイン体系を提唱した。
エルンスト•マイヤーらから激しい反発をうける「こんな分類体系を思いつくのは生物学者ではない証拠だ」
受容には時間がかかった。
http://ja.wikipedia.org/wiki/ファイル:PhylogeneticTree.png
真正細菌 古細菌 真核生物
古細菌も真正細菌も、原核細胞を持った原核生物残りは真核生物
従来あった動物界や植物界などを残して、これらの分類群を呼ぶために、上位の階級名としてドメイン (domain,超界)がつくられた。
• 真正細菌 (バクテリア)ドメイン• 古細菌(アーキア)ドメイン• 真核生物(ユーカリア)ドメイン
従来の「界」はそのまま使用される・
3つのドメインの間の関係
3者についての無根系統樹
3通りの関係が考えられる。
通常は、外群を導入して「根 (=共通祖先)」を決定
しかし、3者で地球上の生物は尽きており、
これよりも遠い関係の生物はいない
真核生物ドメイン
真正細菌ドメイン 古細菌ドメイン
三者の関係の3つの仮説
真核生物
真正細菌
古細菌
真正生物
真核生物
古細菌
古細菌
真正細菌
真核生物
遺伝子データとして、3つのドメイン全てが核にコードされたパラログを有する遺伝子を考える※ ミトコンドリアや葉緑体に由来するものを外す(細胞内共生によるものは真正細菌に近くなる)
真正細菌ドメイン 古細菌ドメイン 真核生物ドメイン
遺伝子 A
遺伝子 B
全てのドメインにパラログ(遺伝子Aと遺伝子B)があるということは、遺伝子A,Bはこれら3つのドメインが種分化する以前の祖先生物において遺伝子重複により生じたと考えられる。
遺伝子Aと遺伝子Bをお互いに外群として利用できる。
藤田俊彦(2010)“動物の系統分類と進化”裳華房 より
外群としてパラログを利用して3つのドメインの根を決定したのは宮田隆のグループの研究 (Iwabeetal.1989)
EF-1α/Tu
EF2/G
遺伝子重複
全生物の共通祖先
真核生物
古細菌
真正細菌
真核生物
古細菌
真正細菌
Ecocyte Hypothesis =TwoDomainsHypothesis
TwoDomains=Archaea andBacteria
EukaryotesarosethroughendosymbioticPartnershipbetweenArchaea andBacteria
最尤法 (maximumlikelihoodmethod)による系統樹の構築
elongationfactor1-alphaのアミノ酸配列を使用
(1)真核生物ヒト (Homosapiensgi |4503471)
(2)古細菌クレンアーキオータ (Sulfolobus solafatarocus gi|80090675)ユーリアーキオータ (Methonococcus maripaludis,gi|73919278)
(3)真正細菌 (outgroupとして導入)大腸菌 (Escherichiacoligi|487459962)
アラインメントはmafftで作成済みのものを使用
(1) MEGAを起動してmafftで作成したアラインメントの読み込み
(2) MEGA形式へのデータの変換
(3) モデル選択
(1) 最尤法による系統樹の構築
(1) MEGAを起動してmafftで作成したアラインメントの読み込み
(2) MEGA形式へのデータの変換
(3) モデル選択
(1) 最尤法による系統樹の構築
aaseq2.alnmafft で作成されたEF-1αのアラインメントを入力として使用
CLUSTAL format alignment by MAFFT L-INS-i (v7.130b)
gi|4503471|ref| MGKEKTHINIVVIGHVDSGKSTTTGHLIYKCGGIDKRTIEKFEKEAAEMGKGSFKYAWVLgi|800906750|gb M-SQKPHLNLIVIGHIDHGKSTLVGRLLMDRGFIDEKTVKEAEEAAKKLGKESEKFAFLLgi|73919278|sp| MAKEKPILNVAFIGHVDAGKSTTVGRLLLDGGAIDPQLIVRLRKEAEEKGKAGFEFAYVMgi|487459962|re ------------------------------------------------------------
gi|4503471|ref| DKLKAERERGITIDISLWKFETSKYYVTIIDAPGHRDFIKNMITGTSQADCAVLIVAAGVgi|800906750|gb DRLKEERERGVTINLTFMRFETKKYFFTIIDAPGHRDFVKNMITGASQADAAILVVSAKKgi|73919278|sp| DGLKEERERGVTIDVAHKKFPTAKYEVTIVDCPGHRDFIKNMITGASQADAAVLVV--NVgi|487459962|re --------------------ETPKYHVTVIDAPGHRDFIKNMITGTSQADCAILIIAGGT
* ** .*::*.******:******:****.*:*::
gi|4503471|ref| GEFEAGISKNGQTREHALLAYTLGVKQLIVGVNKMDSTEPPYSQKRYEEIVKEV-STYIKgi|800906750|gb GEYEAGMSVEGQTREHIILAKTMGLDQLIVAVNKMDLTDPPYDEKRYKEIVDQV-SKFMRgi|73919278|sp| DDAKSGIQP--QTREHVFLSRTLGITQLAVAINKMDTVN--FSEADYNEMKKMLGDQLLKgi|487459962|re GEFEAGISKDGQTREHALLAYTLGVKQLIVAVNKMDSVK--WDKNRFEEIIKET-SNFVK
.: ::*:. ***** :*: *:*: ** *.:**** .. :.: ::*: . . ::
gi|4503471|ref| KIGYNPDTVAFVPISGWNGDNMLEPSANMPWFKGWKVTRKDGNASGTTLLEALDCILPPTgi|800906750|gb SYGFNTNKVRFVPVVAPAGDNITHRSENMKWY------------NGPTLEEYLDQLELPPgi|73919278|sp| MVGFNPDNIDFIPVASLLGDNVFKKSENTPWY------------NGPTLAQVIDGFQPPEgi|487459962|re KVGYNPKTVPFVPISGWNGDNMIEPSTNCPWYKGWEKETKSGKVTGKTLLEAIDAIEPPT
*:*...: *:*: . ***: . * * *: .* ** : :* : *
MEGAの起動
① 左下のスタートをクリック
②下部ウィンドウにMEGAと入力 ③MEGAのアイコンが出てくる
ので、クリックして起動
起動画面 左上に注目
メニューバーのFileをクリック
OpenAFile/Sessionを選択
ファイル選択のウィンドウが表示される
前ページのファイル選択ウィンドウを拡大したもの
スクロールバーで表示位置を変更しながらファイルを探して選択
読み込まれたアラインメントが新しいウィンドウ上でClustal形式で表示される
(1) MEGAを起動してmafftで作成したアラインメントの読み込み
(2) MEGA形式へのデータの変換
(3) モデル選択
(1) 最尤法による系統樹の構築
アラインメントウィンドウのメニューバーのUtilityをクリックプルダウンメニューからConverttoMEGAFormatを選択
新しいウィンドウが開いてファイルと形式を確認してくるので、OKをクリック
MEGA形式のデータを保存するファイル名を聞いてくるので*の部分を aaseq2 としてaaseq2.megという名前で保存
変換が正常に終了したことを示すウィンドウが現れる。OKをおしてとじるそれまでClustal形式だったアラインメントがMEGA形式に変換されて表示されている
MEGA形式のデータが表示される
(1) MEGAを起動してmafftで作成したアラインメントの読み込み
(2) MEGA形式へのデータの変換
(3) モデル選択
(1) 最尤法による系統樹の構築
モデルをクリック
プルダウンメニューのFindBestDNA/ProteinModels(ML)を選択
新しく開いたウィンドウから、変換したMEGA形式のファイルを選択し
Openをクリック
新しいウィンドウが開くので、ProteinSequencesを選択してOKをクリック
ウィンドウの拡大図
モデル選択の確認画面がでてくるデフォルト設定のままでComputeをクリック
時間がかかるので、計算の途中経過を示すウィンドウが現れる
計算結果の画面が現れる
BIC,AIC,lnLがモデル選択の基準BIC,AICcは小さい程よく、lnLは大きいほど良い。MEGAではBICでソートされている
LG+Iモデルが、このモデルに最適であることが示されている
(1) MEGAを起動してmafftで作成したアラインメントの読み込み
(2) MEGA形式へのデータの変換
(3) モデル選択
(1) 最尤法による系統樹の構築
上部のPhylogenyをクリックプルダウンメニューからConstruct/TestMaximumLikelihoodTreeを選択
現在、activeになっているaaseq2.megについて系統樹をつくるのかを聞いてくるので、 Yes をクリック
最尤法の計算設定の画面が現れる黄色の部分が変更可能
① PhylogenyTestBootstrapを100回
② SubstitutionModelLGmodel
③ RatesandPatternsHasInvariantsites(I)
他はデフォルトで
変更の仕方
変更する項目をクリックすると右端にボタンが出てくるのでそれを使って変更
Bootstrapの回数の変更
上向き矢印で増加、下向きで減少
今回は 100になるようにしてください
変更の仕方
変更する項目をクリックすると右端にボタンが出てくるのでそれを使って変更
Bootstrapの回数の変更
上向き矢印で増加、下向きで減少
今回は 100になるようにしてください
Substitutionmodelは、右端をクリックすると現れるプルダウンメニューの中から選択
RatesandPatternsも同様
設定が完了したらComputeをクリック
時間がかかるので途中経過を示すウィンドウが表示される
計算が終了すると最尤系統樹にbootstrap supportがマッピングされた図が表示される。
系統樹をNewick formatで保存系統樹ウィンドウのメニューバーからFileをクリック
系統樹のウインドウのメニューバーのFileメニューから、ExportCurrentTree(Newick)を選択
ファイルネームを aaseq2.nwkとして、Saveをクリック
((gi|4503471|ref|:0.09656983,gi|487459962|re:0.11764039)1.0000:0.31334860,(gi|800906750|gb:0.36944335,gi|73919278|sp|:0.37953026)1.0000:0.05145874);
Newick formatでファイルに保存された情報
系統樹のメニューバーのImageをクリックプルダウンメニューからSavePDFfileを選択
先ほど指定したファイル名が残されているので必要に応じて書き換えて、Saveをクリック今回は、ファイル名はaaseq2だけにしておく
aaseq2.PDFというファイル名で、系統樹の画像ファイルが保存される
gi|4503471|ref|
gi|487459962|re
gi|800906750|gb
gi|73919278|sp|
100
0.1
ヒトとクレンアーキオータがクラスタを形成することを期待して作成したが、古細菌同士がクラスタを形成
ここが、ヒトと古細菌の根になる
今回の系統樹
大腸菌 (外群)
ヒト
クレンアーキオータユーリアーキオータ
この解析の問題点
(1) 真核生物、クレンアーキオータ、ユーリアーキオータ、真正細菌を1種ずつで代表させる。選択したそれぞれの生物に特化した進化の状況が反映されてしまう。---------------à もっと種数を増やす
(2)Elongationfactor1-alpha/Tuだけしか使っていない他のタンパク質についても解析するべき
今回のまとめ
アミノ酸にも置換モデルがある
分子系統樹は基本的には無根(unrooted)
根を導入するには、何らかの根拠から遠い関係にあると考えられる配列を外群(outgroup)として導入する
最尤法の説明については次回
点数 (4)100-90 (3)89-80 (2)79-70 (1)69-60達成目標 (3)に加え、
MEGAで最尤法による系統樹の構築ができる。
(2)に加え、Newickformatについて説明できる。
(1)に加え、ブートストラップ法の計算の手続きや、その計算結果の解釈について説明できる。
進化モデルについて説明できる。特にJC69,K80,TN93について説明できる。
またモデル選択について説明できる。