科研星球

这几道实例习题,让你掌握GraphPad Prism统计分析

GraphPad Prism可谓数据分析表现小能手,能文能武能统计能画图~在我们的单元课中,有跟大家分享了Prism如何正经地作图以及变换数据花式做图,那它做统计时如何施展拳脚的,以下让我们由浅入深的来学习下。



*本篇文章图片较多可能加载显示略慢。

习题一



MCF-7细胞过表达MKL-1、STAT3,或MKL-1加上STAT3,检测N-cadherin的相对表达量,pCDNA3.1为对照。

请用合适的统计方法对下列模拟数据进行分析:

640.png

再给个示例图提示

640.jpeg
本题示例图来源于文献PMID:28499590;Fig 1A



答案:单因素ANOVA



看结构这只有一个分组的维度,即细胞的处理方式不同,所以在Prism里数据录入的形式应该选择Column。但Prism的方向跟Excel不同,组别分列,样本(或重复测量值)分行,所以在Excel中复制数据后,到Prism里要用“Ctrl+Shift+T”来粘贴,将数据转个90º。组名也是一样的做法。

640 (3).png

接下来,多组数据之间的比较,首先想到单因素ANOVA;但要先做正态性检验,若不符合正态分布,则应采用非参数检验。

1) 正态性检验:

点工具栏上的Analyze之后,在弹窗中选择Column statistics,勾选上所有组别。

640 (1).png

点OK之后的弹窗中,把高斯分布(即正态分布)下的三个检验方法都勾上。

简单理解一下这三种方法:当样本量大时,三种方法的结果大同小异;样本量小时,一般只有SW法能计算出结果。至于大小样本的界定,还有不少争议,如30、200、2000为界。没把握就先都选上再看咯。Prism推荐第一种,但第二、三种更常用,SPSS里就是提供后两种的结果。

640 (2).png

说句题外话,Prism开发组似乎不太喜欢KS法,因为不灵敏,认为它只是个历史情怀。在新版使用说明中讲到:“早期版本我们曾提供KS法,现在还是把它放在这(为了保持一贯性),只是不再推荐。”毫不掩饰的一脸嫌弃.jpg,所以不造将来的版本是否会淘汰它。

本例中N=3,果然只有SW法能出结果,并且很直白地告诉你有没有通过(pass)正态性检验,这里是Yes,符合。

640 (4).png

2) 单因素ANOVA

再点一下Analyze,在刚才Column statistics的上方就是one-way ANOVA。同样勾选所有组别。

640 (6).png

接下来的弹窗,在第一个选项卡(实验设计)中,本例都是独立样本,所以选第一个,没有匹配。下边是否假设为高斯分布,刚才检验过了,选符合。

Tips:注意区别Prism中使用的两个很容易混淆的词组,replicate values和repeated (或matched、paired) measures。前者可以理解为独立样本,如本文每个实验都重复做至少3次,用分别制备的质粒和细胞,就属于replicate。如果同一份细胞检测处理前和处理后的蛋白表达,则属于时间上有匹配的样本,要选用repeated / matched / paired的相关算法,这个以后会说。

640 (5).png

第二个选项卡多重检验,选择各组间如何比较,都跟对照组比还是各组都两两比较,还是跟哪个特定组比。本例就选全都两两比较。

下载.jpeg

但多组的两两比较会增加族错误率,所以要采取一些较正方法,通常用Bonferroni,也可以点开下拉框选择其他,比如Tukey、Sidak。下边控制假阳性率是Prism新增的方法,你也可以试试。

下载 (1).jpeg

点OK之后,结果中包含好几个表,先看ANOVA总表。上边的summary中的p值表示这些组是否有统计学差异,但具体在哪组还不知道。

下边的Brown-Forsythe检验即方差齐性检验(若每组都N>5,则还有Barttlet检验)。方差齐也是应用单因素ANOVA的前提之一,不齐则仍需做非参数检验。在SPSS里是要主动勾选是否做方差齐性检验的(用Levene法),而Prism则默默地算好了。

最后一句仍是直白提示,各组标准差没有显著差异,所以是可以继续应用ANOVA的结果的。

下载 (2).jpeg

所以接下来看下边的多重比较表:

下载 (3).jpeg

哪组跟哪组比、有没有差异、P值、可以打几个星号之类的细节都有了。这就可以标在图上了。(你问为啥跟示例图不一样?跟你讲了这是模拟数据不是原文数据嘛~)

在图上打标注的方法也很简单,就用工具栏上的画图和文字工具就可以了。

640 (7).png




习题二



先来看看昨天的那道思考题:MCF-7细胞用野生型(WT)和突变型(M)Vimentin promoter的荧光素酶质粒后,再分别进行和上题一样的过表达处理。

请用合适的统计方法对下列模拟数据进行分析:

下载 (4).jpeg

下载 (5).jpeg
示例图来自文献,PMID:28499590;Fig 2B



答案:双因素ANOVA



这回有两个分组维度,一个是MKL-1和/或STAT3,看它们是否促进MCF-7细胞的Vimentin的转录;一个是野生型和突变型是否有差异。所以在Prism里应选择分组(Grouped)的数据类型,填3个重复测量值。

640 (8).png

然后直接从Excel原形贴过来就行。

下载 (6).jpeg

分析方法就显然是双因素ANOVA。点Analyze之后,找到Two-way ANOVA,把所有组都选上。

640 (9).png

接下来选择实验设计,这里是独立样本,没有匹配。下边的因子名称纯粹为了阅读报告方便,自己随缘填填吧。

640 (10).png

在多重比较选项卡中,因为我们既想了解各行(即MKL-1和/或STAT3过表达)间的差别,又想了解各列(即CArG box是否有突变时)间的差别,所以选交叉比较。校正方法继续选用Bonferroni呗。

下载 (7).jpeg

第一个总表也就看一眼,各行、各列和交叉比较都是有差异的。

下载 (8).jpeg

下一个多重比较表则是看具体的两两比较结果

下载 (9).jpeg

啊好多呀~根据实验意义选取有用的来描述吧。



习题三



25对肾细胞癌(RCC)患者的癌和癌旁组织样本,用qRT-PCR检测miR-766-3p的表达。为减小系统误差每个样本有3个测量值。

请选择合适的统计方法对下列模拟数据进行分析:

640 (11).png
截取前5例
下载 (10).jpeg
示例图来源于文献,PMID:28657135;Fig 1A



答案:配对T检验


这回只有一个分组维度,并且题目已经说了是配对样本,就可想到配对T检验了。不过配对T检验本来是用Column的数据类型,但如果选Column的话,你是没法填上每个样本有3个值的数据的。

这里有两种处理方法,一是可以在Excel中用AVARAGE()函数计算好均值,再贴到Prism中。另一种则是选择Grouped的数据形式,3个重复测量值,然后原样贴过来,Prism会自用采用均值计算。我就用第二种吧。

下载 (11).jpeg
截取前5例

配对T检验的前提则是组间的差值符合正态分布。且不同于非配对T检验,此处不要求方差齐。

可以像课件里的那样先在Excel中计算出两组的差值,再贴到Prism里来做正态性检验,这是很正经的思路。不过我想说,Prism是个很调皮的软件,他们自己推荐的是先斩后奏法。

点Analyze之后,在Column analyses里选择T检验,把两组都选上。

下载 (12).jpeg

实验设计选择配对,下边的高斯(正态)分布先假装它符合。

下载 (13).jpeg

在选项中,单尾还是双尾就是根据自己的知识和科学假说来选了。如果有理由推断某组应该比另一组大,则选单尾,如果出现哪组偏大都有理由解释则选双尾。

下边是关键,勾选画出差值。

下载 (14).jpeg

这样你会在结果中看到一个差值的表:

下载 (15).jpeg

并且右下方会有弹窗提示,说T检验本来是为Column型数据设计的,没有亚组。现在有3个亚组,所以采用平均值来计算。这正是我想要的,Prism真乖~

然后你在这个Differences表的界面上点Analyze,做正态性检验,还和第一题中所说的一样。

640 (12).png

现在三种方法计算的结果一致,组间差值符合正态分布,那刚才的T检验结果就拿去用了呗~

下载 (16).jpeg

P值如上,有显著差异。这个界面也会有弹窗提示说使用了平均值,看看就好。

那么万一不符合正态分布呢?在结果报告表的界面,工具栏Analyze旁边有个改变参数的小图标:

下载 (17).jpeg

然后改回非参数检验就可以了。或许你可以自己先画个频率分布直方图来看看形状估摸一下,提高命中率,省得后边改参数。

画图的话,图片分类选Column,横条往右拉,找到前后对比图就行了,这能很好地表现配对数据。

640 (13).png




习题四



10只小鼠随机分成两组,测试药物对指标M的影响,在服用药物前后不同时间点对指标M进行检测,结果如下,请分析药物A对指标M是否有影响。

640 (14).png

这次木有文献,木有原图。



答案:样本匹配的双因素ANOVA


这数据可以理解为用两个维度来描述,一个维度是干预方法,一个维度是时间,而且在时间上形成配匹,所以用双因素ANOVA。

操作有点像第二题,但区别在于实验设计上,要选择每行代表不同时间点、纵向配匹样本。

640 (16).png

在多重比较选项卡中,没有能一次满足我们需求的选项,所以得分两次做。一次是解决各时间点上药物组跟安慰剂组有没有区别的问题,后边Options里的校正方法如前。

640 (15).png

另一次是解决各个时间点跟基线时间有没有区别。下边可选择每一单元跟对照组单元(第1行)比较,校正方法如前:

下载 (18).jpeg

看看结果,第一次的分析如下,24h和48h时出现了不同处理之间的差异,后来又趋近了。

640 (17).png

第二次分析结果则是,安慰剂对照组不出意外地变化不大,而药物组也是24h和48h与基线时间有差异,后来又趋近了。

640 (18).png

画出图来大概就是这样:

下载 (19).jpeg




习题五



LncRNA-A、miRNA-B、Gene-C的表达如下,共30例,请分析三者的表达关系:

640 (19).png
截取前5例

木有文献示例。


答案:线性回归或相关性分析



很明显,这是在同一批样本中检测了三个基因的表达,那么维度只有这一个。要看三者之间的两两关系,可以用简单的线性回归。选XY格式的数据表,把数据直接贴过来。

点Analyze之后,你会很快看到XY analyses下有个线性回归的选项。不过下边还有一个大同小异的Correlation,一会再说说它。

下载 (20).jpeg

后边的选项看起来复杂,其实也挺好理解,很多选项都默认就行了,所以原谅我懒一回不截图了~

得到的结果有斜率、截距,以及表示相关程度的R2、P值。

下载 (21).jpeg

画图时,可以选择各组分别出图,并加上拟合线:
 
下载 (22).jpeg

这样就得到了两张图:
 
下载 (23).jpeg

但线性回归是只能做一组X和各组Y之间的关系,所以如果要看B和C的关系,则要另建一个表,以B为X轴、C为Y轴再做一遍。

不过刚才提到的Correlation,则提供了另一种办法。那就是不管X轴!把数据全贴到Y轴上。

下载 (24).jpeg

这样,Analyze选Correlation之后,右边会出现三列,全选点OK来到下一个弹窗,选第一行计算各个Y轴数据之间的相关性。下方会提示根据数据是否符合正态分布,从而决定用Pearson法还是Spearman法。单尾双尾的选择如前述。

下载 (25).jpeg

得到R值的矩阵就是这个样子:

640 (20).png

还有一个P值的矩阵:

下载 (26).jpeg

P值的意义我们都熟悉了。在具有统计显著性的基础上,看看各对变量之间的R值,正相关还是负相关、相关程度如何。这个R和线性回归里的R是一样的,只不过报告中一个有平方一个没平方。并且散点图没有拟合线。

它们的确有所区别。线性回归多是用于预测,在X轴可控、可干预的情况下预测Y轴事件的变化。而相关性分析多用于观察现象,看两者是否同步变化及其变化的关系,无所谓谁是X谁是Y。

但也看到有些学者不主张把它俩分这么清楚,毕竟算出来都一样,而线性回归也是给它们的关系提供一种描述方式。所以你也会发现不少文献里会用线性回归描述相关性。

不过到画图时就要想一下了,如果再多几组,则有一种表现策略是作散点图矩阵。

下载 (27).jpeg

这种矩阵图当然对角线上下两半是一样的,可以只画其中一半,随你~

不要怀疑,上图就用R做的,示个意而已~大家可以探索下用Prism怎么做。R只有一句咒语:plot(Data),没错又是因为我懒。(但这么短的命令只能管素颜)

再用R值矩阵做个热图,表现各组间相关程度。这回是Prism了(格子少的热图是真丑,我就示个意~>_<~):

下载 (28).jpeg


相关推荐:

GraphPad Prism 资源汇总

「视频教程」GraphPad Prism 8 软件操作教程 中文字幕

「视频教程」手把手教你用GraphPad Prism做符合SCI投稿的标准图

「视频课程」GraphPad Prism统计分析与制图视频

GraphPad Prism 7 for Win / Mac 完美破解版 统计绘图软件 附安装教程

GraphPad Prism 8.4.3 for Win/Mac 最新完美激活中英文版医学绘图软件+安装教程

GraphPad Prism 9 for Win/Mac 完美学习版+安装教程

更多Prism相关技巧……




没有账号?