科研星球

RNA-seq工具大汇总

RNA-seq是转录组研究的一项重要技术方法,自从它诞生以来,已经发展了上百种分析工具。人们往往更加热衷于对新的分析工具的开发,而忽视了对已有工具的系统性整合。近期在NC上发表了一篇通过对RNA-seq广谱性分析文章,获得对转录组数据更加全面的认识。

 

下载.jpeg

 期刊名:Nature Communications      

发表时间:2017年7月    

影响因子:12.124

 

RNA-seq技术的广泛应用为转录组研究迎来了一个新时代。根据研究内容的方向,精度、速度和成本要求不同,科研人员需要对包括采取何种具体测序方法流程、样品类型、所需的分析结果,以及基因组研究现状和计算数据处理可用资源等内容进行权衡。因为涉及的问题复杂多样,如何找到一种最佳的工作流程,在成本和性能要求基础上,通过对RNA-seq分析中涉及到的各个不同环节进行最优选择,便成为是至关重要的问题。


为了解决上述问题,研究者提出了一个综合性RNA-seq方案 — RNA-Cocktail法,这种方法分析了一系列RNA-seq工作流程,除了分析RNA表达情况之外,研究者还对RNA变异识别、RNA编辑和融合检测方法进行了评估。他们利用39个分析工具,对生殖系、癌症和干细胞的15个样本数据集进行了120个组合的490项分析,实现了工作流程的更高精度化,提供了更多生物学相关预测。


流程代码下载网址:http://bioinform.github.io/rnacocktail/。

 


RNA-seq数据集来源

下载 (1).jpeg

 

RNA-seq分析设计方案


下载 (2).jpeg

 图1、RNA-Cocktail分析设计方案

 

用于比较的分析软件列表


下载 (3).jpeg

 

基于有参序列的转录本鉴定


下载 (4).jpeg

 图2、不同序列比对策略性能比较

研究者比较了TopHat、STAR14和 HISAT2三种最常用的拼接软件,最终从整体的比较结果看,HISAT2比STAR14和TopHat分别快了大约2.5倍和100倍(图2)。

之后,研究者又比较了Cufflinks和StringTie这两个常用的基于比对的转录组工具,结果发现虽然Cufflinks在基因层面的检测要比StringTie灵敏一些,但是StringTie比Cufflinks多预测50–200% 的转录本,并且比Cufflinks分析速度快约60倍。


De novo 转录本组装

当缺少参考基因组或者转录组数据时,测序reads的de novo组装可以被用来构建转录本。本研究分析了三种广泛应用的工具:Trinity、Oases和SOAPdenovo-Trans。对RNA-seq数据的分析结果发现,Oases在所有样本中,具有最高的N10到N50值,表明它具有发现长转录本的优势(图3)。在对ExN50的测试中,Oases同样具有更有效的捕捉低表达基因的能力。而考虑到较低内存配置及计算需求时,SOAPdenovo-Trans则是最为高效的方法。

下载 (5).jpeg

图3、不同de novo转录本组装技术性能比较


差异表达分析

RNA-seq的一个重要目标就是鉴定不同样本和条件下基因表达差异情况,人们开发出多种检测方法,比如DESeq2、limma、edgeR、Cuffdiff、Ballgown和sleuth等。这些工具用于检测SEQC样品中的1001个表达差异基因的性能差异,结果表明,DESeq2较为明显的优于其他方法(图4)。

下载 (6).jpeg

图4、不同基因表达差异工具性能比较


RNA-seq变异分析

除了检测差异表达信息之外,RNA-seq数据还可以用于鉴定基因组和转录组重要的变异情况。

下载 (7).jpeg

 图5、不同变异识别(a-c)、RNA编辑(d-e)和RNA融合(f)检测方法比较

在变异识别中,常用到SAMtools mpileup和GATK’s HaplotypeCaller工具。通过与其他环节多种工具的组合对比发现,SAMtools和GATK具有较为类似的处理时间和性能。RNA编辑作为转录后调控的重要过程,可以影响序列功能及表达水平,本研究重点对GIREMI工具进行了分析。RNA-seq的另外一个重要应用就是对融合基因的检测,比较常用工具JAFFA、 STAR-Fusion、TopHat-Fusion、FusionCatcher和SOAPfuse,以及长片段工具IDP-fusion和Iso-Seq的结果发现,FusionCatcher和IDP fusion表现出更高的灵敏性和准确性(图5)。

 

高准确性工作流程—RNA-Cocktail流程


下载 (8).jpeg

 图6、RNA-Cocktail流程图

综合上述工具比较分析结果,研究者对各个环节表现更好的工具进行整合,提出了RNA-seq分析高准确性工作流程—RNA-Cocktail(图6)在数据验证后发现,该流程优于之前的其他工作流程,如Galaxy和Grape等方法。



没有账号?