科研星球

GO分析和KEGG分析都是啥?

几乎现在的套路性文章在做完差异表达分析后,都会去做GO和KEGG富集分析。那么GO和KEGG都是什么?富集分析又是个什么东西呢?



01

为什么做富集分析?

在我们进行差异表达分析的时候,我们会得到很多的差异表达基因。这些基因如果只是按照基因名放到哪里的话,我们很难找到一个规律说这些有基因之间有什么关系的。例如下图,我们把这些差异基因平铺来了之后,就是这么一个情况。

1.png

高通量的数据的分析,可以让我们得到很多候选的结果。但是如果只是把结果这样的平铺开的话,反正不利于我们去发现事情的本质。所以为了更情况的看清楚这些基因的功能,我们就使用了富集分析。我们可以把富集分析理解为在把很零零碎碎的东西,通过一个整体来反应出来,类似于从微观到宏观的变化。

利用富集分析,我们就可以把很多看着杂乱的差异基因总结出一个比较整体反应事件发生的概述性的句子。例如:TP53信号通路和胃癌的发生有关。而不是说BAX、BID、ABL1、ATM、BCL2、BOK、CDKN1A这7个基因和胃癌的发生有关系。


2.png


02

GO和KEGG是什么?

就算没有做过富集分析,但是也肯定见过公司或者一些文章里面写到他们做了GO分析和KEGG pathway分析。那么这两个东西到底是什么?

对于每个基因而言,其基本的功能基于他们的蛋白结构域以及研究的文献已经可以大致的知道一个基因具有什么样子的功能了。GO和KEGG就是基于不同的分类思想而储存的基因相关功能的数据库。

  • GO数据库,全称是Gene Ontology(基因本体),他们把基因的功能分成了三个部分分别是:细胞组分(cellular component, CC)、分子功能(molecular function, MF)生物过程(biological process, BP)。利用GO数据库,我们就可以得到我们的目标基因在CC, MF和BP三个层面上,主要和什么有关。例如: SRSF1这个基因的在GO数据库的注释就有:

3.png


  • KEGG数据库:除了对基因本身功能的注释,我们也知道基因会参与人体的各个通路,基于人体通路而形成的数据库就是通路相关的数据库。而KEGG就是通路相关的数据库的一种。其实通路数据库有很多,类似于wikipathway,reactome都是相关的通路数据库。只是因为KEGG比较被人熟知,所以基本上都做这个分析的。例如: SRSF1这个基因的在通路数据库的注释就有:

4.png


03

GO、KEGG和富集分析有什么关系呢?

通过上面的解释,我们知道,其实GO和KEGG是两个数据库,里面有每个基因相关的功能信息,而富集分析就是一个把这些功能进行进行整合计算的算法。

GO和KEGG是基础,而富集是过程,最后得到的结果就是整合后的宏观的结果。

5.png


      对于GO和KEGG基本上就是这些。但是对于富集分析,还是有不同的算法的。明天我们就来简单的介绍一下基本的一些富集分析的算法。


没有账号?