東海大學物理系‧計算科學總論 some simple analysis of statistical properties of...

27
東東東東東東東‧東東東東東東 Some Simple Analysis of Statistical Properties of Biological Sequences 計計計計計計 計計計計計計計 計計計計 計計計 // 計計計

Post on 21-Dec-2015

245 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Some Simple Analysis of Statistical Properties of Biological Sequences

計算科學總論東海大學數學系/物理系/環科系

施奇廷

Page 2: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

DNA Walk

C.K. Peng et al. Nature 356, 168 (1992).

H.S. Stanley et al. Physica A273, 1 (1999).

For i=A, G → u(i)=-1

For i=C, T → u(i)=+1

Page 3: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

DNA Walk (conti.)

l

i

iuly1

)()(

(a) intron-rich human -cardiac myosin heavy-chain gene sequence

(b) Its cDNA(c) Introless bacterion-phage

DNA squence

Page 4: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

DNA Walk (conti.)Fluctuations:Fluctuations:

Correlation:Correlation:

Random sequence and short correlated Random sequence and short correlated sequence: sequence: Long-range correlated sequence: Long-range correlated sequence:

)()()(

)()()(

00

222

lyllyly

lylylF

l

i

l

j

ijClF

lullululC

1 1

2

2

000

)()(

)()()()(

0.5 with ~)( llF

0.5 with ~)( llF

Page 5: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

DNA Walk (conti.)(a)(a) intron-containing intron-containing -cardiac myosin (● with a=0.67) and its -cardiac myosin (● with a=0.67) and its

cDNA (○ with a=0.49)cDNA (○ with a=0.49)(b) intron-rich genes (● with a=0.62) and its intronless genes (○ ● with a=0.62) and its intronless genes (○

with a=0.49), see tablewith a=0.49), see table(c)(c) same as in (a) for longer distancesame as in (a) for longer distance

Page 6: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

DNA Walk 4/4 (conti.)

Page 7: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Puzzle

含有 含有 intronintron (無編碼)的序列,具有 (無編碼)的序列,具有 long-long-range correlationrange correlation

全部皆為編碼序列之 全部皆為編碼序列之 cDNAcDNA ,沒有 ,沒有 long-long-range correlationrange correlation ,接近於 ,接近於 random walk random walk 序列序列

以上結果,似與預期相反,有生物意義之序列,以上結果,似與預期相反,有生物意義之序列,才應該有 才應該有 long-range correlation?long-range correlation?

Solution: mosaic organization of DNA sequence Solution: mosaic organization of DNA sequence (C.K. Peng et al., Phys. Rev. E 49, 1685)(C.K. Peng et al., Phys. Rev. E 49, 1685)

Non-coding Non-coding 部分有很多片段大量重複,此為其部分有很多片段大量重複,此為其具有具有 long-range correlation long-range correlation 之來源之來源

Page 8: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Music of Life將流行性感冒病毒之將流行性感冒病毒之DNADNA 序列轉換成樂譜:序列轉換成樂譜:

Page 9: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Linguistic Analysis

Ref.: R. N. Mantegna et al., Phys. Rev. E 52, 2939 Ref.: R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995)(1995)

Zipf law:Zipf law:

Counting f, the frequency of occurrence of words Counting f, the frequency of occurrence of words in a given text. f of each word is ordered from the in a given text. f of each word is ordered from the most frequent to the least one. The position of most frequent to the least one. The position of each word in the ordered list is the rank R.each word in the ordered list is the rank R.

In nature languages, the Zipf law is satisfied with In nature languages, the Zipf law is satisfied with ζζclose to 1.close to 1.

R

af

Page 10: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Linguistic Analysis (conti.)

Use “n-tuple” Zipf analysis instead of the Use “n-tuple” Zipf analysis instead of the conventional one: the length of “word” is conventional one: the length of “word” is fixed as nfixed as n

Natural language (English), computer Natural language (English), computer language (UNIX binary code) and DNA language (UNIX binary code) and DNA sequences are analyzed by this methodsequences are analyzed by this method

Page 11: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Linguistic Analysis (conti.)

words)realfor (-0.8557.0

Page 12: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Linguistic Analysis (conti.)

77.0

Page 13: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Linguistic Analysis (conti.)

34.0

Page 14: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Page 15: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Page 16: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Puzzle:

Non-coding sequence: satisfies Zipf law as Non-coding sequence: satisfies Zipf law as the natural or computer languagesthe natural or computer languages

Coding sequence: doesn’t satisfy Zipf law but Coding sequence: doesn’t satisfy Zipf law but the logarithmic form:the logarithmic form:

Does this mean, there are some biological Does this mean, there are some biological meaning in the non-coding region?meaning in the non-coding region?

Rcbf 10log

Page 17: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Linguistic Analysis of Heartbeat

Ref. A.C.C. Yang et al., Phys. Rev. Lett. 90, 108103 (2003)Ref. A.C.C. Yang et al., Phys. Rev. Lett. 90, 108103 (2003)

{x{x11,x,x22......}: interbeat interval......}: interbeat interval ,, IInn=0 (1) if x=0 (1) if xnn (>) x≦ (>) x≦ n-1n-1

Page 18: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Linguistic Analysis of Heartbeat (conti.)

Zipf’s law

Page 19: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Linguistic Analysis of Heartbeat (conti.)

““Distance” between Distance” between different sequences:different sequences:

m

m

k kkm

k kkkkm

wpwp

wpwpwRwRSSD

2

1 21

2

1 212121

)()(12

)()()()(),(

Page 20: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Linguistic Analysis of Heartbeat (conti.)

Page 21: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Linguistic Analysis of Heartbeat (conti.)

Page 22: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Visualize the Complete Genome

利用符號動力學 利用符號動力學 (symbolic (symbolic dynamics) dynamics) 方法,可以將物種方法,可以將物種的完整的完整 DNADNA 序列圖像化,是序列圖像化,是一種粗粒化的方式,雖然失一種粗粒化的方式,雖然失去一些細節,然而卻能使某去一些細節,然而卻能使某些重要的特性一目了然。右些重要的特性一目了然。右圖為圖為 Methanococcus jannaschiiMethanococcus jannaschii(第一種完成定序的古細(第一種完成定序的古細菌)的完整序列之圖像顯示。菌)的完整序列之圖像顯示。B. L. Hao et al., Chaos, B. L. Hao et al., Chaos, Solitons and Fractals, 11, 825-Solitons and Fractals, 11, 825-836 (2000).836 (2000).

Page 23: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Method for Visualization

將序列圖像化的方法:將序列圖像化的方法:1.1. 設定子序列長度,例如設定子序列長度,例如

為為 222.2. 將一單位正方形分割為將一單位正方形分割為

四等分,其所代表的鹼四等分,其所代表的鹼基如圖所示。基如圖所示。

3.3. 將每一小格再細分為四將每一小格再細分為四格,亦以同樣的相對位格,亦以同樣的相對位置訂定對應鹼基。置訂定對應鹼基。

GG CC

AA TT

GCGC GGGG CGCG CCCC

GAGA GTGT CACA CTCT

AGAG ACAC TGTG TCTC

AAAA ATAT TATA TTTT

Page 24: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Method for Visualization (conti.)

4.4. 統計序列中各長度為統計序列中各長度為 22之子序列出現的次數,之子序列出現的次數,例如下列序列:例如下列序列:AATCGGACGTAACC AATCGGACGTAACC GTAATATAGGGTAATATAGG ,則其,則其出現次數如右表所示。出現次數如右表所示。

5.5. 將各出現頻率依高低以將各出現頻率依高低以不同的顏色表示,顏色不同的顏色表示,顏色越深者表出現次數越多。越深者表出現次數越多。

6.6. 所得之圖稱為該物種之所得之圖稱為該物種之Genome PortraitGenome Portrait 。。

GCGC00

GGGG22

CGCG33

CCCC11

GAGA11

GTGT22

CACA00

CTCT00

AGAG11

ACAC22

TGTG00

TCTC11

AAAA33

ATAT33

TATA44

TTTT00

Page 25: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Statistical Properties

如果如果 DNADNA 序列是序列是隨機序列,則各個隨機序列,則各個子序列出現的機率子序列出現的機率應該差不多,但是應該差不多,但是由所研究的幾個序由所研究的幾個序列顯示,出現機率列顯示,出現機率的分佈極不均勻,的分佈極不均勻,因此因此 DNADNA 序列顯序列顯然不是一個隨機序然不是一個隨機序列。列。

Page 26: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Genome Maps of Different Species

對不同的物種可以作相同的分析,對不同的物種可以作相同的分析,發現有些物種的發現有些物種的 Genome MapGenome Map 很類很類似,有些則差距較大。這種方法可似,有些則差距較大。這種方法可能可以作為分類或是演化學研究的能可以作為分類或是演化學研究的方法。方法。

Page 27: 東海大學物理系‧計算科學總論 Some Simple Analysis of Statistical Properties of Biological Sequences 計算科學總論 東海大學數學系/物理系/環科系 施奇廷

東海大學物理系‧計算科學總論

Why so few?

既然既然 DNADNA 序列的子序列的子序列分佈不均勻,序列分佈不均勻,「經常出現」與「較「經常出現」與「較少出現」的子序列,少出現」的子序列,必然有其生物意義。必然有其生物意義。先由「較少出現」者先由「較少出現」者來看,在此圖形上似來看,在此圖形上似乎顯示出某種碎形乎顯示出某種碎形(( fractalfractal )的特性?)的特性?這是為了「躲避」限這是為了「躲避」限制內切脢的攻擊。制內切脢的攻擊。