科研星球

大型肿瘤基因组测序数据集GENIE介绍

对于大型的肿瘤公共测序数据集而言,其中最出名的肯定还是 TCGA 数据了。对于 TCGA 数据我们之前也做过基本的介绍。


但是除了 TCGA 之外,还有很多公共的有组织的大型测序数据集。例如我们今天要介绍的这个 

AACR Project GENIE: 

https://www.aacr.org/professionals/research/aacr-project-genie/ 

数据集介绍

GENIE 是一个纳入了 19 个机构肿瘤患者测序数据的综合性数据集。

和 TCGA 不同的是,目前的 GENIE 主要包括的还是基因组测序的数据。也就是基因突变,拷贝数这类的数据。对于一些 RNA-seq 的数据。这里面是没有的。至于每个患者的临床数据,在目前当中也是有一些基础的的临床数据的。

自 2017 年公布第一个版本之后,目前 GENIE 数据集已经公布到了 10.0 版本 (! 2021/11)。目前这个版本包括了超过 111, 000 名患者的近 120, 000 个测序样本。其中涉及了多个癌肿主要,样本数前三的还是非小细胞肺癌 (18, 000), 乳腺癌 (13, 000) 和结直肠癌 (12, 000)。


数据集使用

对于 GENIE 的数据,官网上提供了两种数据分析的方式:在线分析和数据下载。

在线分析

在 GENIE 当中,主要是通过 cbioportal 工具来进行分析的。

0 (1).png

不过,使用 cbio 进行分析之前,需要注意的是。GENIE 的数据在 cbio 当中是没有公开的。需要注册了账号之后才能进行分析。注册的话需要用谷歌邮箱进行注册。这个事情就只能自己想自己的办法了。

Cbio 分析网站:https://genie.cbioportal.org/login.jsp

0 (3).png

数据下载

至于 GENIE 所有的数据则存在微软云盘上。可以去下载。里面包括了 1-10 版本中间各个版本的数据。具体的下载网址是:https://www.synapse.org/#!Synapse:syn7222066/wiki/405659 。


0 (2).png


文章发表情况汇总

关于 GENIE 数据库发表的文献,由于是从 17 年来公布的第一个版本。目前基于 GENIE 数据发表的文章也在逐年的上升。

但是也由于这个数据集主要还是分析基因肿瘤基因组的变化,另外相对应的临床信息也少一些。所以基本的一些研究也是集中于肿瘤特征性的突变研究上。



没有账号?