科研星球

一个大型儿童肿瘤数据库,TARGET使用指南

数据挖掘,不用花大量的时间做实验,是临床医生一个非常不错的选择。


目前可供数据挖掘的肿瘤数据库有很多,包括 SEER、TCGA 和 GEO 等。本文主要介绍的是一个公开的肿瘤数据库:Therapeutically Applicable Research to Generate Effective Treatments (TARGET)


640.png

图片来源:TARGET 官网


TARGET 肿瘤数据库(网址:https://ocg.cancer.gov/programs/target)是由美国国家癌症研究所(NCI)等组织研究和建立的。


它主要是利用分子特征来描述难治性儿童肿瘤发生和进展中基因变化。


截止到目前,TARGET 肿瘤数据库一共收录 5 种疾病,包括急性成淋巴细胞性白血病 (ALL/急性髓性白血病(AML)/肾肿瘤(KIDNEY TUMORS)/成神经细胞瘤 (NBL)/骨肉瘤(OS)


TARGET 肿瘤数据库内容主要包含患者临床数据、全基因组测序数据、甲基化数据、miRNA 数据等


数据库有三种类型数据,包含 Open、Controlled†和 FASTQ/BAM†。其中 DCC Open 代表公开数据,可直接下载;DCC Controlled† 和 FASTQ/BAM† 受保护,使用数据需要一般 eRA Commons account 账号。



数据库的优缺点


优点


1. 数据库免费,公开数据较容易下载;


2. 数据库操作界面简单方便,很容易上手操作;


3. 数据库肿瘤数据按疾病分期分类,且包含患者临床数据。


缺点:


1. 这是一个儿童肿瘤数据库,年龄段有局限;


2. DCC Controlled† 和 FASTQ/BAM† 受保护,数据下载较为麻烦。



数据库使用步骤


以「ALL Phase 1 (B-ALL)」为例,下载基因表达相关数据。


公开数据下载


1. 进入官网,选择「DATA」下「ACCESS TARGET DATA MATRIX」进入数据库页面,或者直接进入网站(网址:https://ocg.cancer.gov/programs/target/data-matrix)


640 (1).png

图片来源:TARGET 官网


2. 选择「Patient Data」项,点击「Clinical File」进入页面,点击「harmonized」,选择最后一个「.xlxs」文件下载;


640 (3).png

图片来源:TARGET 官网


640 (2).png


3. 选择 Patient Data 项下, 点击「Sample Matrix」进入页面,选择最后一个 xlxs 文件下载;


640 (4).png

图片来源:TARGET 官网


640 (5).png

图片来源:TARGET 官网


4. 选择「Gene expression」项下的「DCC OPEN」进入页面,点击「METADATA」,选择最后一个「.xlxs」 格式文件下载;


640 (6).png

图片来源:TARGET 官网


640 (7).png

图片来源:TARGET 官网



研究文献案例阅读


临床预测模型是一种较好的评估风险与受益的工具,在数据挖掘中是较为常见的研究方向。


临床预测模型主要分为诊断模型和预后模型。前者主要是基于患者存在的临床症状与特点,预测患者的得病概率;后者是预测患者在未来某个时间节点患病的概率。


Xi Quan 等人发表在 MOL GENET GENOMICS (IF 2.797) 期刊上的纯生信文章:Development of an immune-related prognostic model for pediatric acute lymphoblastic leukemia patients


640 (8).png

图片来源:文献截图


目前挖掘 TARGET database 纯生信文章影响因子都不是很高,但好歹也是 SCI 文章了。


研究主要内容是:免疫相关基因在儿童急性成淋巴细胞性白血病发展进程中扮演重要角色。


本研究利用 TARGET 数据库下载相关基因表达数据,并筛选了复发组和非复发组之间的差异表达基因。Cox 回归分析寻找最佳的预后基因,并建立风险模型,最后经验证。


1. 获取转录组基因和相应临床信息数据和免疫相关基因


研究人员首先在 TARGET 肿瘤数据库下载了 251 个急性成淋巴细胞性白血病患儿的转录组基因数据和相应临床数据,并在「the ImmPort」数据库下载免疫相关数据库。


删除无临床资料或临床资料与表达数据不相符等数据,最终获取了 185 个资料和基因表达数据齐全的病人数据。


2. 筛选差异表达基因


作者利用 R 软件,以 FDR < 0.05 和 |log2 fold-change [FC]| > 1.5 条件筛选差异基因筛查,最终发现 130 个差异基因,并绘制相应的热图和火山图(图 1a、1b)


作者随后利用这 130 个差异基因做 GO 分析和 KEGG 通路富集分析(图 2a、2b)得到最显著的三个信号通路 NABA matrisome-associated,chemotaxis 和 antimicrobial humoral response


后经发现这三个通路已有文献验证过。


640 (9).png

(图 1,图片来源于 molecular genetics and genomics)


640 (10).png

(图 2,图片来源于 molecular genetics and genomics)


3. 识别能预后的差异基因


作者将研究组分为训练组 (n = 93) 和测试组(n = 92),如表一。单因素 COX 回归分析训练组中的每一个差异基因,并发现 84 个基因与儿童急性成淋巴细胞性白血病总存活数显著相关。


640 (11).png

(表 1,表来源于 molecular genetics and genomics)


4. 筛选建立风险模型的预后基因


为进一步分析,作者利用上述 84 个基因建立了一个 COX 回归风险模型。为防止模型过度拟合,作者 Lasso 回归来处理预后基因,并获得 7 个候选预后基因(图 3a、3b)


然后,多因素 Cox 比例风险回归分析选出最佳的高风险预后基因 PRDX2,S100A10,RORB 和 SDC1(图 4)


640 (12).png

(图 3,来源于 molecular genetics and genomics)


640 (13).png

(图 4,来源于 molecular genetics and genomics)


5. 建立风险评分预后模型


作者基于多因素 Cox 风险回归分析建立了一个评价基因在预后中重要性的模型。


风险评分计算公式如下:


风险评分 =(0.1615×expression of PRDX2) +(0.3387×expression of S100A10) +(0.0903×expression of RORB)+(0.1940×expression of SDC1)


作者利用风险评分值大小将病人分为高风险组和低风险组。


Kaplan—Meier 曲线分析发现低风险组预后要好于高风险组(图 5a)。ROC 曲线分析 3 年和 5 年风险模型的预测精确度(图 5b、5c)。用图描述患者风险评分值分布(图 6a),并用点阵图描绘每个患者的生存状态(图 6b)


640 (14).png

(图 5,来源于 molecular genetics and genomics)


640 (15).png

(图 6,来源于 molecular genetics and genomics)


6. 模型验证


利用验证组数据和步骤 5 方法对本研究预后模型进行验证。


以上就是相关文献解读。


总的来说,对于繁忙的临床工作者来说,不用做实验,直接挖掘数据就可以发文章真心不错。这个操作方便又简单的数据库,赶紧动手用起来吧。



没有账号?