科研星球

GraphPad Prism教程:标准差详解

什么是标准差?


  • 什么是标准差?

标准差(Standard Deviation),缩写为S.D.、SD、或者s,是描述数据点在均值周围聚集程度的指标。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。

标准差(SD)量化了变异性或分散性,并以与数据相同的单位表示。

  • 如果数据呈高斯分布,如何解释标准差?

如果数据从高斯分布群体中抽样得到,则您预计68%的值处于平均值的SD内,95%的值处于平均值的两个SD内。该图展示出了从高斯分布群体抽样得到的250个值。阴影面积覆盖平均值的一个正负SD,包括数值的约三分之二。虚线基于平均值加减两个标准差绘出,约95%的值处于这些范围内。
下载.jpeg

下图表示出了标准差与高斯分布之间的关系。概率分布下面积代表整个群体,因此部分概率分布下面积代表群体的一部分。在左侧图表中,绿色(阴影)部分低于平均值的一个SD延伸到高于平均值的一个SD。绿色面积约占总面积的68%,因此略多于三分之二的值处于平均值加减一个SD的区间内。右侧图表示出了约95%的值位于平均值的两个标准差内。

下载 (1).jpeg

  • 如果数据不服从高斯分布,如何解释标准差?
下图展示出了三组数据,所有三组数据均具有完全相同的平均值和SD。左侧样本近似为高斯分布。另外两个样本远离高斯分布,但具有完全相同的平均值(100)和标准偏差(35)。
下载 (2).jpeg

该图表指出,如果您假设数据服从高斯分布,但该假设不正确,则采用常规方式解释平均值和SD时可能会产生误导。

SD仍然可以在不假设服从高斯分布的情况下进行解释。切比雪夫定理提到,即使数据并非从高斯分布群体中抽样得到:

  • 至少75%的值必须位于平均值的两个标准偏差内。
  • 至少89%的值必须位于三个标准偏差内。

  • 如何报告标准差?
许多人报告的平均值和标准偏差如下:“115±10 mmHg”,“方法”部分具有一条脚注或声明,其将第二个值定义为标准偏差。
有学者(1*,2*)称,由于标准偏差是一个量化分散的单一值,因此它不应跟在加号/减号之后,而应采用下述方式:”115mHg (SD 10)”。

1*.Curran - Everett D和Benos D。美国生理学会出版的期刊统计报告指南。《AJP - 胃肠和肝脏生理学》。2004年8月1日;287(2):G307。
2*.Ludbrook J。临床和实验药理学和生理学的统计学介绍。《临床实验药物生理学》。2008年10月1日;35(10):1271 - 4;authorreply1274。


如何计算标准差?


  • 标准差的计算方法?
1. 计算每个值与样本平均值之间差值的平方。
2. 将这些值相加。
3. 将总和除以N - 1。将其称为方差。
4. 开平方根,获得标准偏差。

  • 为什么选择n-1?
为什么在上述第三步中除以n-1(而非n)?在第1步中,计算每个值和这些值的平均值之差。你不知道群体的实际平均值;你所知道的是样本的平均值。除样本平均值恰好等于群体平均值的罕见情况外,数据将更接近样本平均值,而非实际群体平均值。因此,您在第2步中计算的值可能会比在第1步中使用实际群体平均值时的值小一点(且无法更大)。为弥补这一不足,我们除以n-1而非n。
但是,为什么使用n-1?如果您知道样本平均值,以及除了一个值之外的所有值,则您可以计算最后一个值必须是什么。统计学家称为:存在n-1自由度。

  • 但我看到方程的分母中是n,而非n-1
n-1方程用于分析数据样本,并希望得到更一般结论的常见情况。以此方式计算的SD(分母中为n-1)是你对总群体SD值的最佳猜测。
如果你只是想要量化一组特定数据的变化,而不打算外推以得到更广泛的结论,则在分母中使用n计算SD。由此产生的SD是这些特定值的SD,但很可能低估这些数值点提取群体的SD。
科学的目标始终是普遍化,因此在分析科学数据时,不应在方程的分母中使用n。我们能想到的唯一一个在分母中使用n(而非n-1)可能有意义的示例是量化检测评分之间的差异。但更好的方法是显示每个评分的散点图,或者频率分布直方图。
Prism始终使用n-1计算SD。

  • 计算标准差需要多少个值?
1. SD量化离散度,因此显然需要不止一个值。两个值是否足够?
许多人认为仅有两个值无法计算SD。但这是错误观点。当您仅有重复(n=2)数据时,计算SD的方程正常工作。
2. 结果是否有效?
从数学角度来看,我们没有理由不这么想,但我用模拟回答了该问题。我模拟了一万个n=2的数据集,并且每个数据点均从高斯分布中随机选取。由于所有统计检验实际上均以方差(SD的平方)为基础,因此我们比较了根据重复数据计算的方差和真正方差。模拟数据的10,000个方差的平均值与模拟数据来源真正方差的差异不超过1%。这意味着根据重复数据计算的SD是对数据离散度的有效评估。其同样可能过高或过低,但也可能距离真SD非常远。

  • 使用Excel计算标准差
Excel可以使用STDEV函数,根据一系列值计算SD。例如,如果你想知道单元格B1-B10中值的SD,则在Excel中使用以下公式:= STDEV(B1:B10)
该函数在分母中使用n-1,计算SD。如果您想在分母中使用n以计算SD(见上文),则使用Excel的STDEVP函数


没有账号?