科研星球

RNA-seq简述

RNA测序(RNA-seq)在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具。随着二代测序技术 (NGS)的发展,RNA-seq的应用也越来越广。现已经可以应用于很多RNA层面的研究,比如单细胞基因表达、RNA翻译(translatome)和RNA结构组(structurome结构组学)。新的有意思的应用,如空间转录组学(spatialomics)也在积极研究中。通过结合新兴的三代长读长long-readdirect RNA-seq技术,以及更好的计算分析工具,RNA-seq帮助大家对RNA生物学的理解会越来越全面:从转录本在何时何地转录RNA折叠以及分子互作发挥功能等。

640 (20).png

640 (21).png

图1. short-read,long-read和direct RNA-seq技术和工作流程

RNA-seq是一种集合实验方法和计算机手段的一种技术,它可以确定生物样本中RNA序列的特征性和丰度,也就是说,存在于每条单链RNA分子中的腺嘌呤、胞嘧啶、鸟嘌呤和尿嘧啶核糖核酸残基的组成顺序,可以通过RNA测序被识别出来。


RNA-seq中的实验方法涉及从细胞、组织或整个动物样本中分离RNA、不同RNA文库的构建、对文库进行化学法测序以及随后的生物信息学数据分析。同早期的技术方法相比,例如微阵列,一个关键区别在于,当前RNA-seq平台惊人的高通量性和高的灵敏度,使得我们能够发现新的转录本、基因调控模型和更多非编码小RNA。

RNA-seq方法的产生源自于测序技术的世代革新。


第一代高通量测序通常是指Sanger双脱氧链终止法测序,可以得到一组相差一个碱基的一系列片段,再用毛细管电泳分离不同大小的核酸片段,一次标准的一代测序的运行可采用96个毛细血管,产生600-1000个碱基的短序列,共产生大约10万个碱基序列。第二代测序,也被称为下一代测序(NGS),也是利用化学合成法进行单个核苷酸的合成,但是以一种大规模并行的方式进行,在一次运行中测序反应的数量可以达到数百万,以含100个碱基的RNA序列为例,一次典型的NGS运行,可以产生6000百万条序列,即6000亿个碱基序列信息。第三代测序,同样主要是指通过化学合成法进行大规模边合成边测序,不同之处在于,可以实现对每一条DNA或RNA分子进行单独测序。每个反应所读取的序列长度(读长)变得更长,甚至可达到10000个核苷酸。


RNA-seq数据可以让我们知道很多未知的东西,比如,我们可以识别出胚胎干细胞中编码新蛋白质的转录本,可以找到皮肤癌细胞中那些过表达的转录本。基于此,我们可以提出或者解决很多问题:正常细胞和癌细胞中基因表达水平的差异究竟是怎样? 基因水平发生了什么样的变化导致癌细胞逃避掉了抑癌基因的作用?细胞系在诱变处理之后基因表达发生了什么变化?在大脑发育过程中,哪些基因被上调表达?哪些转录本特异存在于皮肤而非肌肉组织中?在氧化应激胁迫中,基因剪接是如何改变的?在人类胚胎干细胞中,我们能发现哪些新的miRNAs ?.......通过RNA-seq能够解决的问题可见一斑。


从单细胞生物到人类细胞的基因结构和功能,我们还知之甚少的时候,突然RNA-seq技术能够揭示这些功能时,人们对转录组的兴奋和期望如期而至。来自RNA-seq平台的新数据揭示出基因结构的巨大多样性,发现了新的未知基因,并且进一步阐明了长、短非编码转录本[1–4]。一些新物种的可获取的转录序列信息非常有限,后续的RNA-seq研究为这些新物种提供了大量的数据。


现在,研究速度如此之快,在测序领域中,有一个众所周知的比喻--测序成本的下降速度比摩尔定律还要快。(摩尔定律是由Intel创始人之一Gordon Moore提出来的。其内容大致为:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。


换言之,每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上。这一定律揭示了信息技术进步的速度)。在当今如此有利的经济形势下,实现生产力惊人的提高已不再难,甚至是实现更大的期望都是指日可待的。


640 (22).png

图2. A workflow for RNA seq




没有账号?