蛋白质结构预测的意义、方法、数据库_生物研究_实用技巧

蛋白质结构预测的背景

一种生物体的基因组规定了所有构成该生物体的蛋白质，基因规定了蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成，但是它们只有折叠成特定的空间构象才能具有相应的活性和生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能，也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构对于生物学研究是非常重要的。

目前，蛋白质序列数据库的数据积累的速度非常快，但是已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展，但是通过实验方法确定蛋白质结构的过程仍然非常复杂，代价较高，因此实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面，随着DNA测序技术的发展，人类基因组及更多的模式生物基因组已被或将被完全测序，DNA序列数量将会急增，而由于DNA序列分析技术和基因识别方法的进步，我们可以从DNA推倒导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量（如蛋白质结构数据库PDB中的数据）的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度，或者减小两者的差距。那么如何缩小这种差距呢？不能完全依赖现有的结构测定技术，需要发展理论分析方法，这对蛋白质结构预测提出了极大的挑战。

20世纪60年代后期，Anfinsen首先发现去折叠蛋白或者说变性(denatured)蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构，这种天然结构(nativestructure)对于行使生物功能具有重要作用，大多数蛋白质只有在折叠成它们天然结构的时候才能具有完全的生物活性。自从Anfinsen提出蛋白质折叠的信息隐含在蛋白质的一级结构中，科学家们对蛋白质结构的预测进行了大量的研究，分子生物学家将有可能直接运用适当的算法从氨基酸序列出发，预测蛋白质的结构。

蛋白质结构预测的生物学意义

基因是生命的蓝图，蛋白质是生命的机器。来自于四种字符字母表（A，T（U），C，G）的核酸序列中蕴藏着生命的信息，而蛋白质则执行着生物体内各种重要的工作，如生物化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传递等工作。蛋白质序列由相应的核酸序列所决定，通过对基因的转录和翻译，将原来四字符的DNA序列，根据三联密码翻译成20字符的蛋白质氨基酸序列。

蛋白质具有不同的长度、不同的氨基酸排列和不同的空间结构，实验分析表明蛋白质能够形成特定的结构。蛋白质中相邻的氨基酸通过肽键形成一条伸展的链，肽链上的氨基酸残基形成局部的二级结构，各种二级结构组合形成完整的折叠结构。蛋白质分子很大，其折叠的空间结构会将一些区域包裹在内部，而将其它的区域暴露在外。在蛋白质的空间结构中，序列上相距比较远的氨基酸可能彼此接近。在水溶液中，肽链折叠成为特定的三维结构。主要的驱动力来自于氨基酸残基的疏水性，氨基酸残基的疏水性要求将氨基酸疏水片段放置于分子的内部。

研究蛋白质的结构意义重大，分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构，有助于了解蛋白质的作用，了解蛋白质如何行使其生物功能，认识蛋白质与蛋白质（或其它分子）之间的相互作用，这无论是对于生物学还是对于医学和药学，都是非常重要的。对于未知功能或者新发现的蛋白质分子，通过结构分析，可以进行功能注释，指导设计进行功能确认的生物学实验。通过分析蛋白质的结构，确认功能单位或者结构域，可以为遗传操作提供目标，为设计新的蛋白质或改造已有蛋白质提供可靠的依据，同时为新的药物分子设计提供合理的靶分子及结构。但是，蛋白质的空间结构又是由什么决定的呢？当一个蛋白质的空间结构被破坏以后，或者蛋白质解折叠，可以恢复其自然的折叠结构。大量的实验结果证明：蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结构的另一个因素是蛋白质分子所处的溶液环境，但是决定蛋白质结构的信息则是被编码于氨基酸序列之中。然而，这种编码是否能被破译呢？或者说是否能够直接从氨基酸序列预测出蛋白质的空间结构呢？

蛋白质结构预测的基本思想

蛋白质结构预测的问题从数学上讲，是寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的一种映射。典型的蛋白质含有几百个氨基酸、上千个原子，而大蛋白质（如载脂蛋白）的氨基酸个数超过4500。所有可能的序列到结构的映射数随蛋白质氨基酸残基个数而呈指数增长，是天文数字。然而幸运的是，自然界实际存在的蛋白质是有限的，并且存在着大量的同源序列，可能的结构类型也不多，序列到结构的关系有一定的规律可循，因此蛋白质结构预测是可能的。

蛋白质结构预测主要有两大类方法：

理论分析方法或从头算方法（Abinitio）：通过理论计算（如分子力学、分子动力学计算）进行结构预测，该类方法假设折叠后的蛋白质取能量最低的构象。从原则上来说，我们可以根据物理、化学原理，通过计算来进行结构预测。但是在实际中，这种方法往往不适合。主要有几个原因，一是自然的蛋白质结构和未折叠的蛋白质结构，两者之间的能量差非常小（1kcal/mol数量级），二是蛋白质可能的构象空间庞大，针对蛋白质折叠的计算量非常大。另外，计算模型中力场参数的不准确性也是一个问题。

统计方法：该类方法对已知结构的蛋白质进行统计分析，建立序列到结构的映射模型，进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。映射模型可以是定性的，也可以是定量的。这是进行蛋白质结构预测较为成功的一类方法。这一类方法包括经验性方法、结构规律提取方法、同源模型化方法等。

所谓经验性方法就是根据一定序列形成一定结构的倾向进行结构预测，例如，根据不同氨基酸形成特定二级结构的倾向进行结构预测。通过对已知结构的蛋白质（如蛋白质结构数据库PDB、蛋白质二级结构数据库DSSP中的蛋白质）进行统计分析，发现各种氨基酸形成不同二级结构的倾向，形成一系列关于二级结构预测的规则。

与经验性方法相似的另一种办法是结构规律提取方法，这是更一般的方法。该方法从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规则，指导建立未知结构的蛋白质的模型。有许多提取结构规律的方法，如通过视觉观察的方法，基于统计分析和序列多重比对的方法，利用人工神经网络提取规律的方法。

同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元（如锌指结构、螺旋-转角-螺旋结构、DNA结合区域等）。其原理是基于下述事实：每一个自然蛋白质具有一个特定的结构，但许多不同的序列会采用同一个基本的折叠，也就是说，具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质，如果它们的序列具有25～30%的等同部分或者更多，则可以假设这两个蛋白质折叠成相似的空间结构。这样，如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性，那么可以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。如果目标蛋白质序列的某一部分与已知结构的蛋白质的某一结构域区域相似，则可以认为目标蛋白质具有相同的结构域或者功能区域。在蛋白质结构预测方面，预测结果最可靠的方法是同源模型化方法。

蛋白质的同源性比较往往是借助于序列比对而进行的，通过序列比对可以发现蛋白质之间进化的关系。在蛋白质结构分析方面，通过序列比对可以发现序列保守模式或突变模式，这些序列模式中包含着非常有用的三维结构信息。利用同源模型化方法可以预测所有10～30%蛋白质的结构。然而，有许多具有相似结构的蛋白质是远程同源的，它们的等同序列不到25%，也就是说，具有相似空间结构的蛋白质序列等同程度可能小于25%。这些蛋白质的同源性不能被通过传统的序列比对方法所识别。如果按照一个未知序列搜索一个蛋白质序列数据库，并且搜索条件为序列等同程度小于25%的话，那么将会得到大量不相关的蛋白质。因此，搜索远程同源蛋白质就像在干草堆里寻找一根针。寻找远程同源蛋白质是一项困难的任务，处理这个困难任务的技术称为“线索（THREADING）技术”。对于一个未知结构的蛋白质，仅当我们找不到等同序列大于25%的已知结构的同源蛋白质时，才通过线索技术寻找已知结构的远程同源蛋白质，进而预测其结构。找到一个远程同源蛋白质后，利用远程同源建模方法来建立蛋白质的结构模型。

如果既没有找到一般的同源蛋白质，又没有找到远程同源蛋白质，那么如何进行结构预测呢？一种可行的办法就是充分利用现有数据库中的信息，包括二级结构和空间结构的信息，首先从蛋白质序列预测其二级结构，然后再从二级结构出发，预测蛋白质的空间结构；或者采用从头算方法进行结构预测。

蛋白质结构预测常用数据库：

数据库	说明1 J1 E# f' ]. Q8 U5
PDB5 ^& `/	蛋白质三维结构* S! i% h7 @* s7 L) R6 k
SWISS-PROT# n;	蛋白质序列数据库7 A, `. d6 [, H8 q
PIR#	蛋白质序列数据库
OWL	非冗余蛋白质序列
EMBL	核酸序列数据库!
TrEMBL	EMBL的翻译数据库
GenBANK/ y3 s- i0 \: ?9 ^( v% }6 S: n	核酸序列数据库
PROSITE" @3 R, B/ _7 p7 i- K/ U	蛋白质功能位点: O* d4 A- D/ T" t; p6 l6 {5 M, S
SWISS-MODEL! f) ]& F, @# s W8 `) f	从序列模建结构/ S2 k, \& n, o1 \|
SWISS-3DIMAGE	三维结构图示
DSSP	蛋白质二级结构参数
FSSP	已知空间结构的蛋白质家族
SCOP	蛋白质分类数据库
CATH2 Z5 o* ~; A6 E- y& _	蛋白质分类数据库; e7 n' q# `$ h& r3 ?1 }3 ]2 R( b
Pfam	蛋白质家族和结构域 Y. t1 s5 b h! ]; d. I% A

Chou-Fasman方法预测蛋白的二级结构

Chou-Fasman方法是一种基于单个氨基酸残基统计的经验参数方法，由Chou和Fasman在20世纪70年代提出来。通过统计分析，获得的每个残基出现于特定二级结构构象的倾向性因子，进而利用这些倾向性因子预测蛋白质的二级结构。每种氨基酸残基出现在各种二级结构中倾向或者频率是不同的，例如Glu主要出现在α螺旋中，Asp和Gly主要分布在转角中，Pro也常出现在转角中，但是绝不会出现在α螺旋中。因此，可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。另外，不同的多肽片段有形成不同二级结构的倾向。例如：肽链Ala(A)-Glu(E)-Leu(L)-Met(M)倾向于形成α螺旋，而肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成α螺旋

通过对大量已知结构的蛋白质进行统计，为每个氨基酸残基确定其二级结构倾向性因子。在Chou-Fasman方法中，这几个因子是Pα、Pβ和Pt，它们分别表示相应的残基形成α螺旋、β折叠和转角的倾向性。另外，每个氨基酸残基同时也有四个转角参数，f（i）、f(i+1)、f(i+2)和f(i+3)。这四个参数分别对应于每种残基出现在转角第一、第二、第三和第四位的频率，例如，脯氨酸约有30%出现在转角的第二位，然而出现在第三位的几率不足4%。根据Pα和Pβ的大小，可将20种氨基酸残基分类，如谷氨酸、丙氨酸是最强的螺旋形成残基，而缬氨酸、异亮氨酸则是最强的折叠形成残基。除各个参数之外，还有一些其它的统计经验，如，脯氨酸和甘氨酸最倾向于中断螺旋，而谷氨酸则通常倾向中断折叠。

下表中显示了Chou-Fasman预测方法中所用到的各种参数，其中参数值Pα、Pβ和Pt是分别在原有相应倾向性因子的基础上乘以100而得到的。

在统计得出氨基酸残基倾向性因子的基础上，Chou和Fasman提出了二级结构的经验规则，其基本思想是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构的过程中，首先扫描待预测的氨基酸序列，利用一组规则发现可能成为特定二级结构成核区域的短序列片段，然后对于成核区域进行扩展，不断扩大成核区域，直到二级结构类型可能发生变化为止，最后得到的就是一段具有特定二级结构的连续区域。下面是4个简要的规则：

1、α螺旋规则

沿着蛋白质序列寻找α螺旋核，相邻的6个残基中如果有至少4个残基倾向于形成α螺旋，即有4个残基对应的Pα>100，则认为是螺旋核。然后从螺旋核向两端延伸，直至四肽a片段Pα的平均值小于100为止。按上述方式找到的片段长度大于5，并且Pα的平均值大于Pβ的平均值，那么这个片段的二级结构就被预测为α螺旋。此外，不容许Pro在螺旋内部出β，但可出现在C末端以及N端的前三位，这也用于终止螺旋的延伸。

2、β折叠规则

如果相邻6个残基中若有4个倾向于形成β折叠，即有4个残基对应的Pβ>100，则认β为是折叠核。折叠核向两端延伸直至4个残基Pβ的平均值小于100为止。若延伸后片段的Pβ的平均值大于105，并且Pβ的平均值大于Pα的平均值，则该片段被预测为β折叠。

3、转角规则

转角的模型为四肽组合模型，要考虑每个位置上残基的组合概率，即特定残基在四肽模型中各个位置的概率。在计算过程中，对于从第i个残基开始的连续4个残基片段，将上述概率相乘，根据计算结果判断是否是转角。如果f(i)×f(i+1)×f(i+2)×f(i+3)>7.5×10-5，四肽片段Pt的平均值大于100，并且Pt的均值同时大于Pα的均值以及Pβ的均值，则可以预测这样连续的4个残基形成转角。

4、重叠规则

假如预测出的螺旋区域和折叠区域存在重叠，则按照重叠区域Pα均值和Pβ均值的相对大小进行预测，若Pα的均值大于Pβ的均值，则预测为螺旋；反之，预测为折叠。

abChou-Fasman预测方法原理简单明了，二级结构参数的物理意义明确，该方法中二级结构的成核、延伸和终止规则基本上反映了真实蛋白质中二级结构形成的过程。该方法的预测准确率在50%左右。

科研星球

蛋白质结构预测的意义、方法、数据库

标签