科研星球

全网最全!2021最新常用肿瘤生信数据库收藏级汇总!(2)

今天小编为大家分享的是全网最全的肿瘤生信分析的数据库合集!

小编为大家爆肝整理了近百个数据库!共分10大类。今天第二期小编为大家分享后5类。
在整理的过程中,小编发现一些虽然是以前经常被大家推荐的数据库,但却已经不再维护了,早已不能正常使用了,这种数据库小编也已经贴心的帮大家过滤掉了。那就快来看看有没有你需要的吧!


前五类请点击查看<<



数据库分类


  1. 综合性肿瘤数据库

  2. 肿瘤转录组数据库

  3. 基因组数据库

  4. 遗传变异数据库

  5. DNA甲基化数据库

  6. 蛋白组数据库

  7. 肿瘤驱动基因数据库

  8. 药物与癌细胞系相关数据库

  9. 通路pathway数据库

  10. 具体癌种或疾病数据库




数据库列表



06
 蛋白组数据库


CPTAC:https://proteomics.cancer.gov/programs/cptac

CPTAC成立于2011年,是从蛋白水平的角度描述基因表达。而且,CPTAC包含大量临床数据,可以很好的验证蛋白与临床信息的关系。并整合了基因组和蛋白组的数据,旨在识别和描述肿瘤组织和正常组织中的全部蛋白,发掘可作为肿瘤生物标记的候选蛋白。


Cancer3D:http://www.cancer3d.org/search

Cancer3D数据库提供了一个开放和用户友好的方式来分析癌症错义突变的背景下的蛋白质结构,并与患者的性别和年龄进行关联。数据库整合了来自TCGA和CCLE的体细胞错义突变信息,在蛋白结构水平上分析其对蛋白功能的影响。该数据库通过e-Driver和e-Drug两种算法,帮助用户分析突变的分布模式及其与药物活性变化的关系。


InterPro:https://www.ebi.ac.uk/interpro/

InterPro通过将蛋白质分类为和预测结构域和重要位点来提供功能分析。为了以这种方式对蛋白质进行分类,InterPro使用了由组成InterPro联盟的几个不同数据库(称为成员数据库)提供的预测模型,即特征库。将这些成员数据库中的蛋白质特征组合成一个单一的可搜索资源,利用他们各自的优势,形成一个强大的集成数据库和诊断工具。



UniProt:https://www.uniprot.org/

UniProt的使命是为科学界提供全面、高质量和免费的蛋白质序列和功能信息资源。



RCSB PDB :https://www.rcsb.org/

RCSB PDB存储蛋白质、核酸3D信息,包括生物医学和农业的所有方面,作为wwPDB的成员,RCSB PDB负责管理和注释PDB数据。RCSB PDB通过为分子生物学、结构生物学、计算生物学等领域的研究和教育创建工具和资源来建立数据。


STRING:https://string-db.org/

STRING存储已知和预测的蛋白质-蛋白质相互作用的数据库。蛋白质互作包括直接的(物理的)和间接的(功能的)联系;它们主要来自于计算预测,生物体之间的知识转移,以及来自于其他(主要)数据库的交互聚合。目前涵盖了来自5090个生物体的24584628个蛋白质。


PIR:https://proteininformationresource.org/

The Protein Information Resource(PIR)是一个集成的公共生物信息资源数据库,支持基因组学、蛋白质组学和系统生物学研究和科学研究。PIR成立于1984年,由国家生物医学研究基金会(NBRF)开发,以协助研究人员鉴定和解释蛋白质序列信息。



07
 肿瘤驱动基因数据库



Cancer Gene Census (CGC):https://cancer.sanger.ac.uk/census/
CGC 起始于2004年,收录文献验证的癌症驱动基因,每个基因将会根据其体细胞突变特征以及其在致癌过程中的作用被分为 oncogene,tumor supressor gene (TSG) 以及 fusion gene 三类。

DriverDB:http://driverdb.tms.cmu.edu.tw/
DriverDB是一个癌症组学数据库,包含体细胞突变、RNA表达、miRNA表达、甲基化、拷贝数变异和临床数据以及注释碱基。该数据库还使用已发表的生物信息学算法来识别驱动基因,并呈现它们不同的分子特征。


Network of Cancer Genes (NCG) :http://ncg.kcl.ac.uk/
Network of Cancer Genes (NCG) 致力于收集关于人工筛选的已知和候选癌症基因的信息。针对每个基因,用户可获得与该基因相关的功能和疾病注释信息、突变信息、表达谱、miRNA及蛋白互作关系等,还可以可视化miRNA调控关系和蛋白互作网络。


IARC TP53 Database:https://p53.iarc.fr/
IARC TP53数据库汇编了自1989年以来已发表的文献中报道的TP53突变数据或可在其他公共数据库中获得的TP53突变数据。


TGDBs:http://www.tumor-gene.org/tgdf.html
肿瘤基因家族数据库包含致癌突变靶点基因的信息;原癌基因和肿瘤抑制基因。其目标是提供一套关于所有已知肿瘤基因的标准事实(如蛋白质大小、生化活性、染色体位置等)。目前,该数据库包含300多个基因。

OncoKB:https://www.oncokb.org/
OncoKB是一个精确的肿瘤学知识库,它注释了癌症中基因变异的生物学意义和临床信息(治疗、诊断和预后)。目前,OncoKB的重点是收录癌症中的体细胞变异。计划扩大数据库,包括生殖系变种的注释。



IntOGen:https://www.intogen.org/search
IntOGen是通过七种癌症驱动基因筛查方法对66种癌症疾病数据集进行处理,加权打分得到的近600个驱动基因集合。


08
 药物与癌细胞系相关数据库



DrugBank:https://www.drugbank.ca/
DrugBank数据库是一个整合了生物信息学和化学信息学的数据库,并提供详细的药物数据与药物靶标信息及其机制的全面分子信息。目前DrugBank 5.0包含了10971种药物和4900种蛋白靶标的信息。


GDSC:https://www.cancerrxgene.org/
GDSC是关于癌症细胞药物敏感性和药物反应分子标记的数据库,GDSC提供了一个独特的资源,结合了大的药物敏感性和基因组数据集,以促进发现新的治疗生物标志物的癌症治疗。该数据库中的癌基因组突变信息包括癌基因点突变、基因扩增与丢失、组织类型以及表达谱等。



L1000FWD:http://amp.pharm.mssm.edu/L1000FWD/
L1000 fireworks display (L1000FWD)提供超过16000个药物和小分子诱导基因表达特征集的交互可视化。L1000FWD能够根据不同的属性(如细胞类型、时间点、浓度)以及药物属性(如MOA和临床分期)对基因集进行着色。特征相似度搜索实现了对作为上下基因集输入的模仿或相反特征的搜索。

canSAR:https://cansarblack.icr.ac.uk/
canSAR是一个以癌症为中心的公共综合知识库,用于支持癌症转化研究和药物发现。更新版本包括新的数据,改进的搜索和浏览功能和增强的分析工具。

HMDB:https://hmdb.ca/
The Human Metabolome Database(HMDB)收录包含关于在人体中发现的小分子代谢物的详细信息。主要应用于代谢组学、临床化学、生物标志物发现。该数据库收录三种数据:1)化学数据,2)临床数据,3)分子生物学/生物化学数据。该数据库包含114,264个代谢物条目,包括水溶性和脂溶性代谢物。此外,还收录与代谢物相关的5702个蛋白质序列。HMDB数据库支持广泛的文本、序列、化学结构和关系查询搜索。


CTRP:http://portals.broadinstitute.org/ctrp/
The Cancer Therapeutics Response Portal,CTRP将癌症细胞系的遗传、谱系和其他细胞特征与小分子敏感性联系起来。研究人员生成了一个481个小分子探针和药物的信息集,这些探针和药物选择性地靶向癌细胞,并共同调节的细胞过程。研究人员定量测量了860个癌细胞系对化合物的敏感性,并进行了与癌症特征相关的敏感性分析,包括突变、基因表达、拷贝数变异和谱系。CTRP涵盖了70,000个癌细胞系化合物敏感性和遗传或谱系特征之间的联系。



CCLE:https://portals.broadinstitute.org/ccle
CCLE(癌细胞系百科全书)项目旨在对大量人类癌症模型进行详细的遗传和药理学特征分析,开发整合的计算分析,将不同的药物敏感性与基因组模式联系起来,并将细胞系整合基因组学转化为癌症患者分层。CCLE为超过1100个细胞系提供基因组数据、分析和可视化的公共访问。每个基因都有多个数据集和数据标识符。五种主要数据集类型分别是拷贝数、mRNA表达(Affy)、RPPA、RRBS和mRNA表达(RNAseq)。


09
 通路pathway数据库



KEGG:https://www.kegg.jp/
KEGG集成了18个数据库,这些数据库分为系统,基因组,化学和健康信息。它还提供了KEGG视图工具,可以从基因组序列和其他分子数据集中了解细胞和生物体的功能。KEGG通路是一种基于功能直系同源物概念,从分子结构单元重建分子网络系统的预测方法。
2021年一月,KEGG数据库更新发表文章在Nucleic Acids Research杂志上,文章链接:https://academic.oup.com/nar/article/49/D1/D545/5943834

Reactome :https://www.reactome.org/
Reactome是一个免费、开源、经过策划和同行评议的通路数据库。目标是提供直观的生物信息学工具,用于可视化、解释和分析通路知识,以支持基础研究、基因组分析、建模、系统生物学。


CPDB(Consensus Pathway Database):http://www.cta.lncc.br/
ConsensusPathDB-human整合复杂蛋白-蛋白、遗传、代谢、信号、基因调控和药物靶标相互作用以及生物化学途径等相互作用网络。数据来源于目前32个公共资源和文献。互作数据以互补的方式集成(避免冗余),从而形成包含不同类型的互作网络。

Pathway Commons:http://www.pathwaycommons.org/about/
Pathway Commons是一个网络互作数据库,可以方便地从公共Pathway数据库中获取生物Pathway信息,可以进行搜索、可视化和下载。在每个贡献数据库的许可条款下,所有数据都是免费可用的。


InnateDB:http://www.innatedb.com/
innate edb是一个公开可用的数据库,涉及基因,蛋白质,实验验证的相互作用和信号通路,通过将主要公共数据库中已知的相互作用和通路与人工收录的数据整合到一起。到目前为止,已有18,780条信息被innedb管理团队手工收录。


BioGRID:https://thebiogrid.org/
BioGRID是一个生物医学通路数据库,通过全面的管理工作编译数据。目前的索引是4.2.193版本,通过检索75,988篇出版物,收录包括来自不同生物物种的2005,220种蛋白质和遗传相互作用、29,093种化学相互作用和968,210种翻译后修饰。



10
 具体癌种或疾病数据库

CTdatabase:https://www.hsls.pitt.edu/obrc/index.php?page=URL1231952822
CTdatabase收录现有的大量关于癌睾丸(CT)抗原的数据。大多数数据都经过了仔细的整理和注释,并被专门处理为CT抗原,并在本地存储。数据库提供基本信息,包括基因名称和别名,RefSeq登录号,基因组位置,已知的剪接变异,基因复制


Orphanet :https://www.orpha.net/consor/cgi-bin/index.php

Orphanet已收录了近6000种罕见病的各种相关信息,堪称目前世界上最为权威和丰富的罕见病知识库。通过对这个网站上的信息查询和数据分析,可以得到很多罕见病的宝贵信息。



steosarcoma Database:http://osteosarcoma-db.uni-muenster.de/

骨肉瘤数据库,通过文献挖掘和人工注释PubMed摘要提供了骨肉瘤知识的结构化视图。目前,根据1331篇文献,骨肉瘤数据库包含了911个蛋白编码基因和81个与骨肉瘤相关的microrna。



PED:http://www.pancreasexpression.org/

PED是胰腺组学数据的主要存储库。它汇集了文献中收录的多维胰腺数据,包括转录组学,蛋白质组学,甲基组学,microRNA和基因组谱。




小编有话说

今天给大家分享的数据库共有5大类,数据库的功能可能有重叠,大家可以慢慢探索发展!
小编最后再给大家分享一个惊喜数据库——Database Commons。

数据库网站:https://bigd.big.ac.cn/databasecommons/
搜索具体的数据库之后,会有具体的网址和分类,页面下方也有数据库的原始文献,并且会对具体的分类按照引用量对数据库进行排行。方便大家查看。


Database Commons为用户提供了一个全面的公共可用的生物数据库集合,共有5121个数据库,包括不同的数据类型和跨越不同的生物。大家可以根据自己的需求自行搜索。


没有账号?