科研星球

mRNA 序列设计 | 如何进行密码子优化

文章来源于BioFactory ,作者留胡子的豆腐


在表达异源蛋白时,我们希望通过 mRNA 序列设计来提升外源蛋白表达的效率,诱导机体产生更多的中和抗体。mRNA 序列设计,主要包括:密码子优化,5'UTR 选择,3'UTR 选择。这里面,最简单,最容易上手的便是密码子优化。今天这篇文章,以密码子优化作为主题,介绍基本的原则和操作方法:

  1. 为何密码子优化对蛋白表达非常重要?
  2. 密码子优化的基本原则
  3. 密码子优化的相关网站
  4. 密码子优化的操作步骤

为何密码子优化对蛋白表达非常重要?


大家知道构成蛋白质的常见氨基酸有20种,但是破译出来的密码子有64种(其中,3个终止密码子不编码蛋白质)回溯|谁破译了遗传密码,这就说明存在好几个密码子编码同一种氨基酸的现象,此种现象称为密码子简并性(Degeneracy),编码同一种氨基酸的几个密码子称为同义密码子(Synonymous Codon)。


对于一段特定的氨基酸序列,由于同义密码子的存在,可能存在难以计数的候选 mRNA 序列,但是在一个特定物种的特定细胞中,只能从无数可能的候选 mRNA 序列中选择一条 mRNA 序列来翻译出特定的氨基酸序列。不同的物种,不同的细胞,选择的候选 mRNA 序列是不同的,这是因为不同的物种,不同的细胞在编码同一种氨基酸时,选择的同义密码子是不同的(也就是密码子使用频率不同),具有各自的偏向性,此种现象称为密码子偏向性Codon Bias)。


每一个宿主细胞会有一套自己的密码子使用频率表,一般来说,在宿主细胞里,使用频率高的密码子(最佳密码子),其对应的 tRNA 丰度高,由使用频率高的密码子组成的 mRNA,其蛋白表达也会很高。异源 mRNA 的密码子和宿主细胞的最佳密码子使用频率存在偏差,可能会出现异源蛋白 mRNA 序列里密码子对应的 tRNA 丰度在宿主细胞中非常低的,此低丰度的 tRNA 对应的密码子在宿主细胞中稀有密码子Rare Codon),稀有密码子会导致核糖体花费很多时间才能找到匹配的低丰度的 tRNA,从而导致核糖体在 mRNA上的停滞不前,甚至引起 mRNA降解。因此异源蛋白表达需要进行密码子优化,选择高丰度的 tRNA 对应的同义密码子,提升蛋白翻译效率


0 (1).png

mRNA 转录和翻译过程


密码子优化的基本原则


密码子适应指数 CAI(Codon Adaption Index),指异源 mRNA 序列中密码子和宿主细胞最佳密码子使用频率的相符程度,此数值越接近1,理论上,外源 mRNA 在宿主细胞中的蛋白表达越高。因此密码子优化最基本的原则就是用宿主细胞中使用频率高的同义密码子去替换外源 mRNA 序列中的密码子,保证外源 mRNA 序列中的密码子和宿主细胞的密码子使用偏向性更加契合,避免出现稀有密码子。但是,我们需要知道,密码子并不是影响蛋白表达的唯一因素,还存在其他因素,例如稀有密码子,GC 含量,二级结构(自由能)等。


当把外源 mRNA 序列中的密码子全部更换为宿主细胞的最佳密码子,可能反而导致蛋白无法表达,因为由一些蛋白的表达需要稀有密码子的存在,延缓核糖体前进的速度,为蛋白质的正确折叠来提供足够的时间。


在2006年,Grzegorz Kudla 等人发表文章High Guanine and Cytosine Content Increases mRNA Levels in Mammalian Cells,发现在哺乳动物细胞中,富含 GC 的基因表达效率要比低 GC 含量的基因高出几倍到一百倍,这种现象是由于富含 GC 的基因更加高效的 mRNA 转录或者加工,产生更多的处于稳定状态的 mRNA。


0 (5).png


在2009年,Grzegorz Kudla等人在Coding-sequence determinants of gene expression in Escherichia coli中,构建了154个同义密码子随机突变的 GFP mRNA,将其置于相同的启动子下,研究同义密码子突变对蛋白表达的影响。结果发现,表征 GFP 蛋白表达的荧光信号和 CAI 的相关性没有那么强,有些 GFP mRNA 的表达荧光信号很高,但是 CAI 很低。GFP mRNA 5' 端的折叠自由能(the folding energy)和 GFP 蛋白表达的荧光信号有极强的相关性,高表达的 GFP mRNA 5' 端起始密码子附近的结构包含有很多未配对的核苷酸,折叠自由能低;低表达的 GFP mRNA 5' 端形成一个典型的长发卡结构,折叠自由能高,对蛋白翻译起始造成了限制(翻译起始时蛋白表达的限速步骤)。


0.png


在2019年,David M. Mauger 等人发表文章mRNA structure regulates protein expression through changes in functional half-life,证实 mRNA 5' 端 UTR+CDS 区域前十个密码子形成的二级结构越少,其编码的蛋白表达量越高,剩余的 CDS 区域+3' 端 UTR 形成的二级结构越多,其编码的蛋白表达量越高(SHAPE 活性越高表示 RNA 二级结构越少,也就是越松弛)。


0 (2).png


密码子优化的相关网站


当前主流的密码子优化网站基本主要以优化 CAI作 为指标,主要有:


  • https://www.vectorbuilder.cn/tool/codon-optimization.html


  • http://genomes.urv.es/OPTIMIZER/


  • https://climsprod.genewiz.com.cn/Toolbox/CodonOptimization


  • https://www.genscript.com/tools/gensmart-codon-optimization


  • http://www.jcat.de/


  • http://www.detaibio.com/tools/(功能强大)


2021年10月,张贺等人发表文章LinearDesign: Efficient Algorithms for Optimized mRNA Sequence Design,开发了一种新的算法来更加有效地优化 mRNA 序列,网站 http://rna.baidu.com/,算法兼顾了 mRNA 的密码子适应指数 CAI 和折叠自由能 MFE,能够获得结构更加稳定的 mRNA,延长 mRNA 半衰期和蛋白表达时间,从而提升细胞内 mRNA 终产量。


用新冠 Spike 蛋白来举例说明,横坐标表示每一种氨基酸对应的同义密码子数量,SARS-CoV-2 Spike 蛋白总共有1273个氨基酸(包括终止密码子),那么计算得到 2.4×10^632 种可能的 mRNA 序列;纵坐标表示密码子在宿主细胞中出现的频率,粉红色的线,表示野生型的 mRNA 序列;黑色的虚线表示构成该 mRNA 序列的所有密码子是由宿主细胞中出现频率最高的同义密码子组成(最佳密码子适应指数 CAI);蓝色的线表示该 mRNA 序列的自由能最小,稳定性最高。


0 (3).png


该文章认为,当前传统密码子优化软件算法只能挖掘到橘色箭头覆盖区域的候选 mRNA 序列,此区域内的 mRNA 序列同野生型的 Spike 蛋白 mRNA 序列相比,CAI 获得极大的提升,但是 MFE 并无太大改变,也就是 mRNA 结构稳定性未获得实质提升。而 LinearDesign 可以发掘传统密码子优化软件未曾发掘到的蓝色区域,MFE 减少,mRNA 结构稳定性获得极大提升,这样带来的一个结果是,在兼顾 CAI 的条件下,mRNA 在细胞内表达持续的时间会更长,从而产生更多的 S 蛋白,诱导机体产生更多的抗体。


目前 LinearDesign 百度研发小组已经同各大药企展开合作,对于单个 mRNA 的优化价格也在商讨议定中,据笔者和研发人员沟通的信息来看,如果有意向展开合作,百度 RNA 研发小组愿意提供免费优化,感兴趣的朋友可以尝试联系(RNA 微信群成员中也有百度 RNA 研发老师在里面)。


0 (4).png


密码子优化的操作步骤


密码子优化一般以氨基酸序列作为原始序列,首先我们需要计算原始氨基酸序列在宿主细胞中的密码子适应指数 CAI(http://www.detaibio.com/tools/),一般来说,CAI 在0.7以上,蛋白表达都可以较好地进行。然后,我们将原始氨基酸序列输入密码子优化的相关软件可能获得更高 CAI 指数的 mRNA 序列(相比原始氨基酸序列)。传统密码子优化算法,有的也会兼顾 GC 含量,二级结构等,但是总体是以 CAI 作为最重要的指数。如果想要获得结构上更好的提升,建议尝试 Lineardesign。网上相关的密码子优化软件很多,可以选用几个不同算法的软件,获得几个不同的优化序列,然后转染细胞,比较实际表达效果。


总结


目前对 mRNA 序列进行密码子优化,只能借助于网上一些开源的密码子优化软件,并无其他更好的方法,实际上是一种非常鸡肋的做法,并无多少确定性可言,只能看运气。期待未来可以构建一个类似 cell free synthesis 算法系统,可以将优化过的候选 mRNA 序列直接丢进 cell free synthesis 算法系统中,给出一个模拟的表达量。类似的功能,小熊猫生物已经实现,他们推出了一个超高通量的测试原核载体表达平台,客户可以快速测试蛋白在不同载体以及不同调控元件下的表达量。未来 mRNA 序列的优化(密码子优化,5'UTR,3'UTR)必将依靠算法系统去解决,只有如此才可以更加迅速有效地获得理想的 mRNA 序列。


没有账号?