rna 二次構造予測 (3)
DESCRIPTION
RNA 二次構造予測 (3). 生命情報解析 2007年1 1 月 1 日. RNA の二次構造の解析. RNA は一本鎖なので、折れ曲がって自分自身と結合を作りやすい 二次構造が機能と大きく関わっているため、機能を知る手がかりに?. 5’. 3’. RNA 二次構造による 塩基間相互作用. C. C. C. C. C. C. C. C. C. C. C. C. C. C. C. C. C. C. C. C. AT TA CG GC AT TA. AT TA AT GC AT TA. AT TA GC - PowerPoint PPT PresentationTRANSCRIPT
RNA 二次構造予測 (3)
生命情報解析2007年1 1 月 1 日
RNA の二次構造の解析
• RNA は一本鎖なので、折れ曲がって自分自身と結合を作りやすい
• 二次構造が機能と大きく関わっているため、機能を知る手がかりに?5’ 3’
RNA 二次構造による塩基間相互作用
ATTACGGCATTA
CCCC
ATTAATGCATTA
CCCC
ATTAGCGCATTA
CCCC
ATTATAGCATTA
CCCC
(a) (b) (c) (d)
(a) ATGCTACCCCTAGCTA(b) TAGATACCCCTATCTA(c) TAGGTACCCCTACCTA(d) TAGTTACCCCTAACTA
(e) TAGATACCCCTAGCTA
ATTAA GGCATTA
CCCC
(e)
相互情報量の定義
tg,c,a, tg,c,a, )()(
),(log),()//(
i j ji
jiji vPuP
vuPvuPVUI相互情報量
列 U と V の塩基間の関連性の強さを定量的にとらえている
相互情報量の性質
• I(U // V) = I(V // U)
• I(U // V) 0≧
• I(U // V) = H(U) + H(V) – H(U, V)
相互情報量の計算A CA CA CA CC GC GC GC GG TG TG TG TT AT AT AT A
A CA CA GA GC GC GC TC TG TG TG AG AT AT AT CT C
A AA CA GA TC AC CC GC TG AG CG GG TT AT CT GT T
U VU V U V
(a) (b) (c)
(a) のケースでは、H(U)=2, H(V)=2, H(U,V)=4
従って、I(U//V) = H(U)+H(V)-H(U,V) = 0
演習問題
A AA AA GA TC CC CC GC T
U V
列 U,Vにおける塩基間の相互情報量を求めよ。
tRNA の二次構造
GCGCAUGUCGGCGCU
ACUUGGAAU
AGUC
GGU U A A
CGCGUAGCCGCUG U C
AC
GGGU
C
UGCCCGCGGG
UGAGCUU
CCA
G
A
B
C
D E
F
G
H
5’
3’
1 2 3 4 5 6 7 0123456789012345678901234567890123456789012345678901234567890123456789012345678aspU -GGAGCGGTAGTTCAG-TCGGTTAGAATACCTGCCTGTCACGCAGGGGGTCGCGGGTTCGAGTCCCGTCCGTTCCGCCAaspV -GGAGCGGTAGTTCAG-TCGGTTAGAATACCTGCCTGTCACGCAGGGGGTCGCGGGTTCGAGTCCCGTCCGTTCCGCCAaspT -GGAGCGGTAGTTCAG-TCGGTTAGAATACCTGCCTGTCACGCAGGGGGTCGCGGGTTCGAGTCCCGTCCGTTCCGCCAileV -AGGCTTGTAGCTCAG-GTGGTTAGAGCGCACCCCTGATAAGGGTGAGGTCGGTGGTTCAAGTCCACTCAGGCCTACCAileU -AGGCTTGTAGCTCAG-GTGGTTAGAGCGCACCCCTGATAAGGGTGAGGTCGGTGGTTCAAGTCCACTCAGGCCTACCAileT -AGGCTTGTAGCTCAG-GTGGTTAGAGCGCACCCCTGATAAGGGTGAGGTCGGTGGTTCAAGTCCACTCAGGCCTACCAvalV -GCGTTCATAGCTCAG-TTGGTTAGAGCACCACCTTGACATGGTGGGGGTCGTTGGTTCGAGTCCAATTGAACGCACCAvalW -GCGTCCGTAGCTCAG-TTGGTTAGAGCACCACCTTGACATGGTGGGGGTCGGTGGTTCGAGTCCACTCGGACGCACCAalaU -GGGGCTATAGCTCAG-CTGGG-AGAGCGCCTGCTTTGCACGCAGGAGGTCTGCGGTTCGATCCCGCATAGCTCCACCAalaT -GGGGCTATAGCTCAG-CTGGG-AGAGCGCCTGCTTTGCACGCAGGAGGTCTGCGGTTCGATCCCGCATAGCTCCACCAalaV -GGGGCTATAGCTCAG-CTGGG-AGAGCGCCTGCTTTGCACGCAGGAGGTCTGCGGTTCGATCCCGCATAGCTCCACCAalaX -GGGGCTATAGCTCAG-CTGGG-AGAGCGCTTGCATGGCATGCAAGAGGTCAGCGGTTCGATCCCGCTTAGCTCCACCAalaW -GGGGCTATAGCTCAG-CTGGG-AGAGCGCTTGCATGGCATGCAAGAGGTCAGCGGTTCGATCCCGCTTAGCTCCACCAhisR GGTGGCTATAGCTCAG-TTGGT-AGAGCCCTGGATTGTGATTCCAGTTGTCGTGGGTTCGAATCCCATTAGCCACCCCApheV -GCCCGGATAGCTCAG-TCGGT-AGAGCAGGGGATTGAAAATCCCCGTGTCCTTGGTTCGATTCCGAGTCCGGGCACCApheU -GCCCGGATAGCTCAG-TCGGT-AGAGCAGGGGATTGAAAATCCCCGTGTCCTTGGTTCGATTCCGAGTCCGGGCACCAthrW -GCCGATATAGCTCAG-TTGGT-AGAGCAGCGCATTCGTAATGCGAAGGTCGTAGGTTCGACTCCTATTATCGGCACCAasnT -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCAasnW -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCAasnU -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCAasnV -TCCTCTGTAGTTCAG-TCGGT-AGAACGGCGGACTGTTAATCCGTATGTCACTGGTTCGAGTCCAGTCAGAGGAGCCAglyW TGCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCAglyV -GCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCAglyX -GCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCAglyY -GCGGGAATAGCTCAG-TTGGT-AGAGCACGACCTTGCCAAGGTCGGGGTCGCGAGTTCGAGTCTCGTTTCCCGCTCCAthrV -GCTGATATGGCTCAG-TTGGT-AGAGCGCACCCTTGGTAAGGGTGAGGTCCCCAGTTCGACTCTGGGTATCAGCACCAthrT -GCTGATATAGCTCAG-TTGGT-AGAGCGCACCCTTGGTAAGGGTGAGGTCGGCAGTTCGAATCTGCCTATCAGCACCAthrU -GCCGACTTAGCTCAG-TAGGT-AGAGCAACTGACTTGTAATCAGTAGGTCACCAGTTCGATTCCGGTAGTCGGCACCAmetU -GGCTACGTAGCTCAG-TTGGTTAGAGCACATCACTCATAATGATGGGGTCACAGGTTCGAATCCCGTCGTAGCCACCAmetT -GGCTACGTAGCTCAG-TTGGTTAGAGCACATCACTCATAATGATGGGGTCACAGGTTCGAATCCCGTCGTAGCCACCAlysT -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCAlysW -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCAlysY -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCAlysZ -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCAlysQ -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCAlysV -GGGTCGTTAGCTCAG-TTGGT-AGAGCAGTTGACTTTTAATCAATTGGTCGCAGGTTCGAATCCTGCACGACCCACCAileY -GGCCCTTTAGCTCAG-TGGTT-AGAGCAGGCGACTCATAATCGCTTGGTCGCTGGTTCAAGTCCAGCAAGGGCCACCAileX -GGCCCCTTAGCTCAG-TGGTT-AGAGCAGGCGACTCATAATCGCTTGGTCGCTGGTTCAAGTCCAGCAGGGGCCACCAvalT -GGGTGATTAGCTCAG-CTGGG-AGAGCACCTCCCTTACAAGGAGGGGGTCGGCGGTTCGATCCCGTCATCACCCACCAvalZ -GGGTGATTAGCTCAG-CTGGG-AGAGCACCTCCCTTACAAGGAGGGGGTCGGCGGTTCGATCCCGTCATCACCCACCAvalU -GGGTGATTAGCTCAG-CTGGG-AGAGCACCTCCCTTACAAGGAGGGGGTCGGCGGTTCGATCCCGTCATCACCCACCA
A B C D E F G H
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 80 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 03 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 05 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 0 0 0 0 0 0 0 07 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 02 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 06 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 07 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 07 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 1 0 0 0 0 0 0 0 0 0 0 0 1 2 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 0 1 0 0 0 0 0 0 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 02 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 0 0 0 0 1 0 0 2 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 05 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 06 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 07 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 08 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 04 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 07 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 02 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 03 0 0 0 0 0 0 0 1 0 0 0 2 0 0 0 0 0 1 0 0 0 1 0 0 04 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 06 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 07 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 02 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 0 0 0 0 0 0 0 0 0 0 0 0 0 0 04 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 0 0 0 0 0 0 0 0 06 0 0 0 0 0 0 0 0 0 0 0 07 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 0 0 09 1 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 01 0 0 0 0 0 0 02 0 0 0 0 0 03 0 0 0 0 04 0 0 0 05 0 0 06 0 07 08
A
H
B
C
D
E
F
G
RNA の二次構造予測
• 複数の RNA 配列がある場合は相互情報量を使用して二次構造の推定が可能
• 単一の配列の場合はどうする?
tRNA の二次構造予測の例
http://www.genome.ad.jp/dbget-bin/www_bget?gb:ECOPHER
http://www.bioinfo.rpi.edu/applications/mfold/old/rna/form1.cgi
Zuker の mfold
GenBank tRNA 配列http://www.genome.ad.jp/dbget-bin/www_bget?gb:ECOCPTGG
RNA 二次構造はグラフで表現できる
A T
ACGT
TGCA
C A
A
AA A
A
A
A
G
AT
T
GCAAA
A AAT
C
A
C
A
RNA 二次構造は行列 C で表現できる
A
G
AT
T
GCAAA
A AAT
C
A
C
A
A
C
A
C
G
T
A
A
A
A
A
A
1A
1C
1G
1T
T
A
ACACGTAAAAAAACGTTA
行列C
良い二次構造予測とは
• 二次構造の安定性を表すスコア体系を構築
• 与えられたスコア体系(評価基準)の中で、最適のスコアになるもの
• 最適なスコアを出す行列Cを求める
スコア体系はどうする?• 塩基 b1 と b2 が対合していたら、 α(b1,b2) の
スコア (ex. α(“a”,“t”) = -2, α(“c”,“g”) = -3)
• RNA の塩基配列を r1r2,…,rnとして、 i番目の塩基 riと j番目の塩基 rjが対合していたら、α(ri,rj) のスコア
• 各部分のスコアは別の部分のスコアに影響されない
ギブスの自由エネルギー• 等温・定圧における状態量• 自然に起こる過程では自由エネルギーは減少し
てゆく (ΔG 0 )≦• 自由エネルギーが低いほど安定
G
U :内部エネルギー、 P :圧力、 V :体積、 T: 温度、 S :エントロピーギブスの自由エネルギー G = U + PV - TS
自由エネルギーと RNA の構造
△G < 0自由エネルギーが低いほど安定な構造
最適二次構造を求める
• 自由エネルギーが最も低い構造を探索
• スコアが最も低い構造を探索
• 全通りの構造を探索 … 多大な時間がかかる
扱う RNA 構造を制限
• edge が交差 … . pseudoknot 構造を含む
• 平面グラフ … . 効率の良いアルゴリズムが存在
平面グラフなら…
i j
kk-1
• 構造を分割して考えることが可能• スコア体系によっては、各分割部分に対してス
コアが定義される
3つの指標の定義• E(Si,j) … 部分配列 ri, ri+1, … rj の構造 Si,j の
最適スコア
• D(Si,j) … 部分配列 ri, ri+1, … rj の構造 Si,j の最適の分割位置
• C(Si,j) … 部分配列 ri, ri+1, … rj の末端 ri と rj
を結合させた方がよい場合は 1 、そうでなければ、 0
E(Si,j) 、 D(Si,j) 、 C(Si,j) の例
• E(Si,j)=-10
• D(Si,j)=15
• C(Si,j)=0
CC
GG
AA
A C
T
T10 20
C
1514
塩基 ri と rj の考えうる3つの状態
i j i j i j
k
塩基 ri と rj が結合
i ji+1 j-1
E(Si,j) = α(ri,rj) + E(Si+1,j-1)
但し、 E(Si,j) は部分配列 ri,ri+1,…,rj の最小自由エネルギー
ri も rj も結合しない
i j
E(Si,j) = E(Si+1,j-1)
ri もしくは rj が他の塩基と結合 : 分割
i j
k
k-1
E(Si,j) = E(Si,k-1)+E(Sk,j)
但し k はどの位置か、実際には分からないため、 i<k j≦ なる k を全て調べる
統合しないケースを分割で表現
i j
k
i j
k
k-1
j,k
i,i+1 で分割 j-1,j で分割
j-1
RNA 二次構造予測の定式化
))()((min
),()(min
if 0
)(,1,
1,1,
jkkijki
jijiji
SESE
rrSEji
SE
E(Si,j) は部分配列 ri,ri+1,…,rj の最小自由エネルギー
… 1塩基以下
… 塩基 ri と rj の結合
… 構造を i ~ k-1 と k ~ j に分割
gttataacac の二次構造予測 ( 行列E)
0 1 2 3 4 5 6 7 8 9
0 0 0 -2 -2 -4 -6 -9 -9 -9
1 0 -2 -2 -4 -6 -6 -6 -6
2 -2 -2 -4 -4 -4 -4 -4
3 -2 -2 -2 -2 -2 -2
4 -2 -2 -2 -2 -2
5 0 0 0 0
6 0 0 0
7 0 0
8 0
9
a-t マッチを -2 、 c-g マッチを -3 として計算
途中経過の記録
• E(Si,j) の記録
• 分割位置 D(Si,j) の記録
i j i j
k
l
k
l
効率の良い計算が可能になる計算過程をたどれる
結合も分割も D に記録
i j
k
k-1
分割 D(i,j) に k(i<k j)≦ を記録
i j
結合 D(i,j) に” XX” などを記録数値なら、 k=i などを記録
gttataacac の二次構造予測 ( 行列D)
0 1 2 3 4 5 6 7 8 9
0 1 1 1 1 1 1 XX 8 8
1 2 2 2 2 XX 7 7 7
2 XX 3 4 4 4 4 4
3 XX 4 4 4 4 4
4 XX 6 6 6 6
5 6 6 6 6
6 7 7 7
7 8 8
8 9
9
XX は結合位置
D から二次構造 C を求める
D→C(i, j) : 行列Dを参照し、区間 (i,j) の二次構造 C を求める
• i j≧ なら処理なし
• D(i,j) が XX なら、 C(i,j) を 1 にして、 D→C(i + 1, j - 1) を呼ぶ
• そうでなければ、D→C(i, D(i,j) - 1) を呼んだ後、 D→C(D(i,j), j) を呼ぶ
gttataacac の二次構造予測 ( 行列C)
0 1 2 3 4 5 6 7 8 9
0 0 0 0 0 0 0 1 0 0
1 0 0 0 0 1 0 0 0
2 1 0 0 0 0 0 0
3 0 0 0 0 0 0
4 1 0 0 0 0
5 0 0 0 0
6 0 0 0
7 0 0
8 0
9 gt
t
a t
a
ac a c
演習問題a-t の対合を -2 点、 c-g の対合を -3 点とし
て、ggagtcc
の最適二次構造 C を求めよ。(1)E(Si,j) の行列に最大スコア、(2)D(Si,j) の行列に分割位置 (or 結合 )
を記録していくこと※ 複数解がある場合は結合よりも分割を優先し、なるべく左側分割部分を小さくすること