生物信息学 -...

生物信息学

第三章序列比对 Ⅱ

本章内容提要

第一节：双序列比对算法的介绍

Dot matrix

动态规划算法

(Needleman-Wunsch, Smith-Waterman算法)

FASTA和BLAST算法

第二节：打分矩阵及其含义

第三节：多序列比对

第二节打分矩阵及其含义

1，核酸序列比对的打分方法

2，蛋白序列比对的打分方法

Dayhoff: PAM系列矩阵

Henikoff: BLOSUM系列矩阵

核苷酸替代：转换 & 颠换

转换：嘌呤被嘌呤替代，或者嘧啶被嘧啶替代

颠换：嘌呤被嘧啶替代，或者嘧啶被嘌呤替代

1，核酸序列比对的打分方法

等价/匹配计分：

相同的核酸记1分，否则记0分

BLAST中核酸比对计分：

相同的核酸记5分，否则记-4分

转换-颠换矩阵计分：

转换记 -1分，颠换记 -5分

A T C G

A 1 0 0 0

T 0 1 0 0

C 0 0 1 0

G 0 0 0 1

A T C G

A 5 -4 -4 -4

T -4 5 -4 -4

C -4 -4 5 -4

G -4 -4 -4 5

等价矩阵 BLAST矩阵

A T C G

A 1 -5 -5 -1

T -5 1 -1 -5

C -5 -1 1 -5

G -1 -5 -5 1

转换-颠换矩阵

2，蛋白序列比对的打分方法

等价/匹配计分：

相同的氨基酸记1分，否则记0分

结构域性质计分：

SGM矩阵(Structure-Genetic Matrix)

主要根据氨基酸的结构和化学性质的相似程度来记分(如D和E，S和T，V和I有很高的相似性)，同时还考虑密码子之间相互转换的难易程度。

可观测变换计分：

PAM矩阵 (Point Accepted Mutation)

BLOSUM矩阵 (BLOcks SUbstitution Matrix)

PAM系列矩阵 Margaret Dayhoff, 1978;

通过对物种进化的研究，根据一种氨基酸被另一

种氨基酸替代的频度而提出的，最常用的是

PAM250;

假设，蛋白质序列各部位进化的速率是均等的；

氨基酸变化频率不随进化时间改变，短期进化历

史内观察到的置换可以推广到较长的历史。

Accepted point mutation (PAM): 可接受的点突

变，氨基酸的改变不显著影响蛋白质的功能；

PAM矩阵

71个蛋白质家族的1572种变化；

序列相似性 > 85%；

功能同源的蛋白质通过中性进化，引入可接受

的点突变；

进化模型：

A. 基本假设：中性进化，Kimura,1968;

B. 进化的对称性: A->B = B->A;

C. 扩展性：通过对较短时间内氨基酸替代关系的计算来计算较长时间的氨基酸替代关系；

PAM1矩阵

两个蛋白质序列的~1%氨基酸发生变化；

定义进化时间以氨基酸的变异比例为准，而不是

时间；因为各个蛋白质家族进化的速度并不相等

；

PAM2 = PAM1*PAM1

PAM3 = (PAM1)3

PAM250= (PAM1)250

PAMn矩阵的构建

选取多个家族的相似性>85%的保守序列；

根据匹配计分进行多重比对(不含空位)；

以比对结果构建进化树，反映氨基酸替换关系；

计算每种氨基酸转换成其它氨基酸的次数；

计算每种氨基酸突变率；

计算每对氨基酸突变率，得到突变概率矩阵，将此矩

阵自乘n次；

将突变概率矩阵转化为PAMn打分矩阵。

示例：PAM矩阵的构建

已知3个蛋白质家族若干保守序列片段：

家族一：FKILK，FKIKK，FFILL，FFIKL

家族二：IIFFF， IIFIF ， IKFFL ， IKFIL

家族三： KIFKK，KIFLK，KLFKL，KLFLL

按Doyhoff方法构建PAM1与PAM2矩阵

Step1：多重比对位置对齐，多重比对（不考虑空位）：

统计每种氨基酸出现的频率；

fi = 氨基酸i的数目/总氨基酸数目

fL = 12/60 = 0.2

..

家族一家族二家族三

F K I L K I I F F F K I F K K

F K I K K I I F I F K I F L K

F F I L L I K F F L K L F K L

F F I K L I K F I L K L F L L

Step2：构建进化树

Step3：计算氨基酸间的转换次数

计算每种氨基酸转换成其它氨基酸的次数。

假设两种氨基酸间相互转换一样。

e.g. N(LK)= 3 + 0 + 3 = 6

K F I L

K 1 1 6

F 1 2 1

I 1 2 1

L 6 1 1

Step4：计算各氨基酸相对突变率

Step5：氨基酸一步转移概率矩阵M1ij

原氨基酸

K F I L

替换氨基酸

K 0.9875 0.001563 0.001563 0.009375

F 0.001389 0.994444 0.002778 0.001389

I 0.001786 0.003571 0.992857 0.001786

L 0.0125 0.002083 0.002083 0.983333

Mij：氨基酸i j的标准概率，即在每100个氨基酸残基发生1次变化的进化距离中，氨基酸i变为j

的概率

)/(j

ijijjij ffmM

Step6: PAM1计分矩阵结果

三个家族序列片段得到的PAM1计分矩阵：

K F I L

K 6

F -23 5

I -22 -19 6

L -13 -22 -20 7

由突变率mij计算计分矩阵中的分值rij：

)/lg(10 iijij PMr

Pi = Fi / F : 氨基酸i出现的概率

PAM1矩阵，乘以10000

PAM2矩阵

基本假设：每个氨基酸的突变的概率独立于前次突变。因此，PAM2=PAM1*PAM1

PAM250矩阵

PAM250: 每100个氨基酸残基发生250次突变；

蛋白质序列仍然有15-30%左右的相似性；

PAM250打分矩阵

打分矩阵的使用

PAM250: ~15-30%的序列相似性；

PAM120: ~40%的序列相似性；

PAM80: ~50%

PAM60: ~60%

如何选择最合适的矩阵？

多种尝试…

PAM矩阵的问题及改进

PAM系列矩阵存在的问题：

A. 氨基酸的打分矩阵，不关心核酸；

B. 进化模型的构建需要系统发育树的分析，因此，成为

一个循环论证的问题：序列比对矩阵构建打分进行

新的序列比对；

C. 数据集很小；

打分矩阵的改进

A. 选用大量的序列数据，构建PAM矩阵；

B. BLOSUM系列矩阵;

C. 核酸的打分矩阵;

3， BLOSUM矩阵

最被广泛使用的氨基酸打分矩阵;

根据蛋白质模块数据库BLOCKS中蛋白质序列

的高度保守部分的比对而得到的，最常用的是

BLOSUM62;

BLOCK: 蛋白质家族保守的一段氨基酸，无

gap，一般几个至上百个氨基酸；

Prosite家族：至少有一个BLOCK存在于该家

族的所有蛋白质序列中；

BLOSUM62矩阵构建步骤：

提取Prosite数据库中504个家族的2万多蛋白质序

列（含1961个Blocks），合并其中相似性≥62%

的序列；

统计各BLOCK的氨基酸对数量f；

计算氨基酸对的出现频率q；

计算每种氨基酸的期望频率p；

计算氨基酸对出现的期望频率e；

计算BLOSUM62矩阵分量rij

)/(lg2 2 eqrij

BLOSUM62打分矩阵

http://upload.wikimedia.org/wikipedia/commons/5/52/BLOSUM62.gif

BLOSUM & PAM

序列相似性与PAM及BLOSUM矩阵的大致对应关系：

序列相似性 % 99 90 80 70 60 50 40 30 20

PAM数值 1 11 23 38 56 80 112 159 246

BLOSUM数值 90 80 62-45

第三节，多序列比对

不同物种中，许多基因的功能保守，序列相似

性较高，通过多条序列的比较，发现保守与变异

的部分；

可构建HMM模型，搜索更多的同源序列；

构建进化树的必须步骤；

比较基因组学研究；

两类：全局或局部的多序列比对；

全局性的多序列比对

Made by GENEDOC

双序列比对

Gap V D S C Y

Gap 0 -11 -22 -33 -44 -55

V -11 4 -7 -18 -29 -40

E -22 -7 6 -5 -16 -27

S -33 -18 -5 10 -1 -12

L -44 -29 -16 -1 9 -3

C -55 -40 -27 -12 8 7

Y -66 -51 -38 -23 -3 15

4

2

时间复杂度：O(n2)

多序列比对：最优算法

三条序列：时间复杂度：O(lmn) = O(n3)

四条序列：时间复杂度：O(n4)，非多项式时间！

多项式时间复杂度要求：≤O(n3)

m条序列：时间复杂度：O(nm)！

…

动态规划算法：全空间

动态规划算法：Hyperlattice

动态规划算法优化算法

Sequence A

Sequence B

搜索有限空间，类似于BLAST算法

多序列比对的最优问题

最优的多序列比对，其两两序列之间的比对不一定最优。

最优的多序列比对非最优的双序列比对

MSA程序

MSA - Multiple Sequence Alignment

David Lipman等，1989年初始开发；

应用多维动态规划算法，得到最优的全局比对。

工具资源： http://www.ncbi.nlm.nih.gov/CBBresearch/Schaff

er/msa.html

http://www.psc.edu/index.php/resources-for-

users/software

http://www.psc.edu/general/software/packages/msa/manual/manual.php



MSA：打分方式

多序列比对：方法改进

1. 渐进方法：progressive methods

代表：ClustalW/X, T-Coffee

2. 迭代方法：iterative methods

代表: PRRP, DIALIGN

3. 部分有向图算法：

Partial Order Algorithm (POA)

4. 全局多序列比对的隐马尔科夫模型

profile HMM

5. 整合算法： MUSCLE

1. 渐进方法

ClustalW/X

T-Coffee

(1) ClustalW/X

Clustal: 1988年开发；

ClustalW: 1994年，Julie D. Thompson等人

改进、发展；

ClustalX: 1997年，图形化软件；

ClustalW/X：计算过程

1. 将所有序列两两比对，计算距离矩阵；

2. 构建邻接进化树(neighbor-joining tree)/指导

树(guide tree)；

3. 将距离最近的两条序列用动态规划的算法进行

比对；

4. “渐进”的加上其他的序列。

两两比对，构建距离矩阵

指导树的构建

渐进比对

ClustalW的打分原则

每条序列的权值

Score:BLOSUM62的分数

ClustalX的使用

1. FASTA序列格式，多序列：

ClustalX的使用 ——导入序列文件

执行比对

文件导出

多序列比对：结果处理 BioEdit, GeneDoc等软件

GeneDoc软件，导入.aln文件

选择文件格式

成功导入文件

选择需要拷贝的行

(2) T-Coffee

采用Clustal程序计算两两序列之间的全局最

优比对结果；

采用LALIGN程序计算两两序列之间的局部最

优比对的结果；

设计加权系统，综合考虑以上两类结果的因素

，构建指导库；

最后，采用渐进式比对算法，得到最终的结果

。

同时进行全局和局部的双序列比对

对以上打分的结果设计权重系统，找到序列中最保守的部分

渐进方法的比对，基于上述计算的primary library

ClustalW/X：存在的问题

距离最近的，有两组序列AB和CD，哪组最先比对？两种方案：

1）分别、同时比对。但是，是以AB为准，加入CD，然后再加上其他序列，还是CD为准？结果可能出入很大

2）随机挑选一组作为基准

当序列差异较大时，上述问题更加明显。

例如

三条序列：

若Seq1,2先比对，再加入Seq3：

Seq1,3先比对，再加入Seq2:

Seq2,3先比对，再加入Seq1:

Seq1: ARKCV Seq2: ARCV Seq3: AKCV

ARKCV AR-CV A-KCV

ARKCV A-RCV A-KCV

ARKCV AR-CV AK-CV

2. 迭代方法

部分解决渐进算法存在的问题,主要是

ClustalW/X存在的问题；

（1）PRRP

（2）DIALIGN

(1) PRRP

1. 先用“渐进”算法进行多序列比对;

2. 基于多序列比对的结果构建进化树；

3. 重新计算序列之间的距离，再用“渐进”算法进行多序列比对；

4. 重复上述步骤，直到结果不再发生改变为止。

(2) DIALIGN

1. 对所有序列进行两两之间的局部最优化的比对；

2. 找到所有能够匹配的部分M1；将重叠的、前后连

续(consistency)的匹配部分连接起来(diagonals)

，为M2；

3. 将剩下的未比对的序列重新比对，再发现能够匹

配的部分，构成新M1，将consistency部分构成

M2；

4. 重复上述步骤，直到结果收敛。

3. 部分有向图算法

激酶的多序列比对

4. 隐马尔科夫模型: ProbCons

主要改进：

1. 所有序列的两两比对，通过profile HMM的方

法进行双序列比对；

2. 将渐进算法与迭代算法整合；

3. 性能最优

5. 整合算法MUSCLE

算法分为三个部分，每个部分相对独立；

优点：两条序列之间的距离不采用动态规划算法进行比对，节省时间。

1. Draft progressive:

(1) 对两条序列，计算距离采用k-mer的思想；

(2) 用UPGMA算法构建引导树；

(3) 使用渐进算法进行多序列比对；

MUSCLE 2. Improved progressive:

(1)基于k-mer得到的树可能会产生次优结果，因此，采用

Kimura距离的方法对k-mer产生的树重新计算距离矩阵；

(2)重新用UPGMA构建进化树；

(3)使用渐进算法进行多序列比对；

3. Refinement:

(1)随机从进化树上挑出一条边，删除；

(2)得到两组树，对每组树，计算profile；

(3)将两组profile进行比对；

(4)如果最终得分提高，保留结果，否则丢弃。

MUSCLE的算法流程

MUSCLE: 使用指南

http://www.drive5.com/muscle/



MUSCLE的使用

多序列比对：性能检验

BAliBASE：人工修正的多序列比对数据库，为

评估和比较多序列比对程序设计。基于蛋白质结

构，将同一家族的蛋白质序列进行多序列比较。

检验多序列比对工具的性能：是否能够很好的重

复BAliBASE中已明确的比对结果。

AMP结合酶的结构/序列比较

性能比较

Probcons, T-Coffee, Probalign and MAFFT精确

度最高；POA, CLUSTALW, DIALIGN-TX, and

MUSCLE更快内存需求更小

T-Coffee：序列相似性高时最准确；

DIALIGN: 序列相似性低时最准确；

POA：性能接近T-Coffee和DIALIGN，速度最快；

ClustalW/X: 最经典、被广泛接受的工具；

MUSCLE: 最流行的多序列比对工具；

运算时间比较

生物信息学 -...

Documents