科研星球

泛癌全基因数据分析工具,UCSC XENA使用指南

1

UCSC XENA简介


之前我们在很多帖子里面都提到了。如果下载TCGA的数据的话,其实可以通过UCSC来进行介绍的。所以今天我们就先来简单的介绍一下UCSC XENA的使用。明天可以再来详细的介绍UCSC XENA如何使用PCAWG的数据来进行分析。

关于UCSC XENA的网址是:http://xena.ucsc.edu/

下载.jpeg

登陆到界面时候,我们点击Launch Xena即可登陆到UCSC XENA的分析界面。


2

分析工具基本操作


关于XENA的基本使用,在到了分析界面之后。我们需要做的只有两步:(i)选择想要分析的数据集;(ii)选择想要分析的变量。


下载 (1).jpeg


2.1 数据集选择

在UCSC XENA里面储存了多个关于大型的公共数据集,包括TCGA、GETx以及target等等……关于具体有什么数据集。我们在后面数据下载的时候进行介绍。这里数据集选择的时候,我们只需要数据关键词就可以匹配数据库当中的数据集了。

例如我们输入STAD(TCGA当中的胃癌简写)。在显示

下载 (2).jpeg

选择完之后,就会显示一个数据当中多少样本的一个条形图。


下载 (3).jpeg


下一步就是来选择我想要分析的具体的结果了。

2.2 选择想要分析的变量

在分析数据选择方面的话,UCSC XENA还是主要基于某一个基因或者一段染色体区域来进行分析的,所以我们在使用UCSC XENA的分析的时候是需要要自己想要分析目标的,这个和ICGC查看所有所有结果是不一样的。

这里我们来假设想要查看TP53在临床分级当中的表达差异


2.2.1 选择表达数据

下载 (4).jpeg


对于数据集选择的上面,数据库只是显示了其中的三个。我们可以点击Show Advanced来进行显示。点击完之后,我们就可以看到所有可以分析的数据集了。

下载 (5).jpeg


由于我们要查看TP53表达和临床特征的关系,所以我们这里选择:TP53以及gene expression


下载 (6).jpeg


选择完之后。结果是是通过一个热图的形式表示的。这个结果A和B是对应的。我们可以看到每个样本TP53的表达值。具体颜色的表示,可以在下面的图例表示出来。


下载 (7).jpeg


2.2.2 选择临床分组数据

上面我们提到的是选择基因表达的数据,之后我们就要选择临床表型数据了。由于要看组织分型的结果,所以我们选择临床数据当中的组织分型。

下载 (8).jpeg

2.3 结果解读

在选择完数据之后,可以显示两个模块相同样本的结果。


下载 (9).jpeg


对于这样的结果,我们其实很难通过这样的热图来进行进行比较。这个数据库也提供了转换数据呈现方式的结果,我们可以点击下图的这里就可以获得柱状图了,同时在不同的选项里面。也提供了结果图形下载和原始数据下载的地方。原始原始数据下载。我们下载的也就是我们选择的这些数据的原始数据。这样就满足了我们在不需要全部基因组数据的情况下,可以来分布我们的目标结果了。

这样的好处是,有可能我们使用原始数据获得的图形分组不好,那我就可以自己下载这些数据来做了。例如现在关于组织分级的原始数据是有GX这个不确定因素的。所以图中的统计结果是不准确的。那这个时候。我们就可以下载原始数据来去掉GX,再进行自己分析。有了数据了,即时基本的统计分析R不会,那SPSS也可以做吧。做图的话,R语言不会,那excel也是可以的,所以给了我们很多DIY的方式。


下载 (10).jpeg


3

数据下载


XENA除了提供了基本的分析工具,同时对于原始数据也可以进行下载,所以这个也是我们说的。如果想要下载TCGA数据的话,其实并不需要去原始网站上进行下载的。那个还需要各种代码下载,使用XENA就可以直接下载了。


下载 (11).jpeg


关于XENA储存的数据,需要多说一句的是,XENA的数据有时候是经过结果一定的处理的,这个时候在下载的时候一定要知道自己的原始数据有没有经过处理。这个我们可以在数据下载的unit当中看到,例如这个TCGA的count数据就是经过log2处理的。


下载 (12).jpeg


写在后面


以上就是UCSC XENA使用的基本功能了。对于PCAWG的使用还是没有介绍到了,所以明天我们可以以一个课题寻找的形式来看一下如果使用UCSC XENA当中的PCAWG的数据来寻找一个课题。


没有账号?