科研星球

GEO数据挖掘分析神器,GeoDiver使用指南

本期来给大家介绍一个来自大英帝国的GEO数据分析神器-GeoDiver(https://www.geodiver.co.uk/   )。

1


首先,官网的使用界面非常直观简单,不仅可以高质量的作图,还可以做差异表达和基因富集分析。听着就感觉非常666,而其用户体验也确实是更加nice,下面让我们一起去探索学习吧。


0.jpeg


跟shinyGEO一样,用户只要输入GEO dataset的编号运行即可。比如网站的举例数据GDS724,输入编号后,网站会自动识别分组因素,包括不同组织间比较或者individual间的比较。


另外,ADVANCED PARAMETERS里还有更多可供选择的参数,包括列表里展示的差异表达基因数目、P value的矫正方法、热图里展示的基因数目、热图聚类的方法,及树状图的展示等等。


0 (1).jpeg

0 (2).jpeg


2


接下来,我们以individual为例分析下数据挖掘结果:


Overview Boxplot


0 (3).jpeg


从此图可以看到表达量的均值还是有波动的,没有完全在一条直线上,说明数据没有进行归一化,而归一化的目的是调整由于基因芯片技术引起的误差。


但在实际的数据分析过程中,数据均值的这条线,只要没有太大的波动,像本例中的情况还是可以用的。如果要进行均一化,一般用平均数或者中位数进行标准化处理,那样处理也更加科学严谨。


主成分分析(Principal Component Analysis)


0 (4).jpeg


我们可以看到PC1和PC2两个主成分的解释度超过了60%,按推断应该可以通过主成分的的坐标图将两组分开,实际情况如下:


1)2D图


0 (5).jpeg


2)3D图


0 (8).jpeg


用户可以自行选择主成分,观察主成分是否能够将两组数据分开,以判断两组样本是否存在差异,本例数据来看,两组间的差异还是比较明显的。


热图(Heatmap)


0 (6).jpeg


热图分为两个模块,一个模块是差异表达的基因(很像是Pheatmap的作图风格啊,应该就是它了),另外一个是gene set的富集分析图。不管是差异表达的基因还是富集到的通路,网站都提供搜索功能,可在Table的右侧进行搜索筛选。


富集到的每个通路,用户可以点击如下图所示的红色箭头,查看在KEGG中的通路情况,而且应该是实时的KEGG通路数据(笔者推测,因为加载通路数据时需要一些时间),所以功能还是比较强大的。


0 (7).jpeg

0 (9).jpeg


火山图


网站作者煞费苦心,画了两个火山图如下。笔者认为火山图就只是一个粗略的展示,并没有太多意义。当然,对于筛选差异表达基因时观察某个基因在整体中的情况,还是有一定帮助意义的。


0 (10).jpeg

0.png


这个网站能够完成基本的GEO数据分析,就看各位能不能各显神通,用好这个工具啦!


没有账号?