科研星球

常见RNA-seq分析方法

今天小编从统计学角度分别介绍下样本,基因,转录本和外显子水平相关的RNA-seq分析工具。

下载.jpeg


一、样本水平分析:转录组相似性

1、相关分析是测量生物样品转录组相似性的经典方法。最常用的度量是Pearson和Spearman相关系数。该分析首先计算任意两个生物样本之间归一化基因表达的成对相关系数,得到相关矩阵。用户可以将相关矩阵(通常作为热图)可视化以解释生物样本的成对转录组相似性,或者他们可以在分析中使用相关矩阵,例如样本聚类。

2、转录组重叠测量TROM,以找到相同或不同物种中转录组的稀疏对应性。TROM方法基于它们的“相关基因”而不是整个基因群来比较生物样品,因此导致比相关性分析更稳健和稀疏的转录组相似性结果。TROM将样品的相关基因定义为具有z分数(每个基因的样品的标准化表达水平)大于或等于系统选择的阈值的基因。然后通过重叠测试计算成对TROM分数,以测量每对样品的相关基因的相似性。得到的TROM得分矩阵具有与相关矩阵相同的维度,行和列对应于比较中使用的样本,并且TROM得分矩阵可以容易地可视化或结合到后续分析中。

3、有其他统计指标可用于测量各种情景下的转录组相似性,如偏相关来测量样本相似性、互信息(MI)能够捕获非线性依赖关系的度量、主成分分析(PCA),t-随机邻居嵌入(t-SNE)和多维缩放(MDS)有助于可视化基因表达数据并研究样本在降维后的相似性。


二、基因水平分析:基因表达动力学

1、基因差异表达分析。目前认为归一化是DGE分析之前的关键步骤,因为批次效应的存在可能源于不同测序深度或不同实验中的各种特定方案偏差。RPKM, FPKM和TPM是三个最常用的单位用于RNA-seq数据的基因表达测量,它们消除了总测序深度和基因长度的影响。RPKM和FPKM之间的主要区别在于前者是基于单端读取的单位,而后者基于配对末端读数,并且将来自相同RNA片段的两个读数计为一个而不是两个。RPKM / FPKM和TPM之间的区别在于,前者在将读取计数除以基因长度之前计算样本比例因子,而后者首先将读取计数除以基因长度,并基于长度标准化读数计算样本比例因子。

但基因表达数据仍可能包含特定的偏差,并且通常需要进一步标准化。标准化方法主要有两类:基于分布的和基于基因的。基于分布的归一化方法旨在使不同样本中所有或大多数基因表达水平的分布相似,并且这些方法包括分位数归一化,DESeq和TMM。基于基因的标准化方法旨在使非DE基因或持家基因在不同样品中具有相同的表达水平,并且此类方法包括PoissonSeq和Bullard等人开发的方法。

2、基因共表达网络分析。基因共表达网络(GCN)是无向图,其中节点对应于不同的基因,连接节点的边缘表示基因之间的共表达关系,学习基因之间的功能关系,推断和诠释未知基因的功能。最常用的GCN分析方法之一WGCNA,最初是为微阵列数据开发的,但WGCNA可用于标准化的RNA-seq数据。它广泛应用于基因表达数据集,以检测基因簇和模块,并通过分析相关网络来研究基因连接。


三、转录水平分析:转录本重构和定量

RNA-seq数据的一个重要用途是基于短RNA-seq读数恢复全长mRNA转录物结构和表达水平。目前有许多计算工具同时执行转录重建和量化。

1、基于似然法的分析方法。第一种类型的转录物定量方法通过基于统计模型最大化可能性或后验来估计转录物丰度。这些方法是灵活的,并且可以容易地修改以将先前的生物信息结合到后部以提高量化准确性。统计模型进一步分为三类:基于区域的,基于读的和基于片段的模型。Cufflinks [56], eXpress [57], RSEM [24], and Kallisto [58]
如Alpine专门设计用于调整同种型定量中的多种测序偏差来源,它考虑了在每个同种型中的所有可能位置处长度在片段长度分布中间的所有潜在片段。还有Cufflinks, eXpress, RSEM, KallistoiReckon和NSMAP等重建方法。

2、基于回归的方法。同种型量化的第二类统计方法是基于回归的,这些方法将同种型定量问题表示为线性或广义线性模型,并将基于区域的读数(或比例)作为响应变量,候选同种型作为预测变量,并将同种型丰度作为待估计的系数(参数)。基于回归的方法包括rQuant ,SLIDE,IsoLasso和CIDANE。


四、外显子水平分析:选择性剪接中的外显子包含率

当转录组学研究关注外显子水平时,通常的主要步骤是估计感兴趣的外显子的剪接百分比,常见的方法有MISO,SpliceTrap和rMATS等。MISO和SpliceTrap都构建了类似于贝叶斯框架下的模型,作为感兴趣的参数,然后可以基于其后验分布获得贝叶斯置信区间。


没有账号?