科研星球

如果你还搞不清楚标准差和标准误,快来看看这篇文章!

之前有同学问到标准差和标准误的问题,刚学统计的朋友对这2个统计量一直是傻傻分不清楚,所以经常会用错。所以今天主要就跟大家再把标准差和标准误的区别和联系梳理以下。


在统计书上,还有很多书上是这样解释的:标准差表示数据的离散程度,标准误表示抽样误差的大小。从书上的解释来看太简单,等于没有解释。


我们分别来看下这2个统计量的含义和意义:

1. 标准差(SD):

含义:是总体各单位标准值与其平均数离差平方的算术平均数的平方根。用来反映个体间的离散程度。

意义:当两组样本的数值在单位相同、均数相近的情况下,标准差越大, 代表大部分数值和其平均值之间差异较大,数值围绕均数的分布较离散,均数的代表性较差。标准差越小, 代表这些数值较接近平均值,数值围绕均数的分布较密集,均数的代表性较好。对于标准差的大小,原则上应该控制在均值的12%以内,如果标准差过大,将直接影响研究的准确性。


2. 标准误(SEM):

含义:各测量值误差的平方和的平均值的平方根,故又称为均方根误差,标准误的大小与标准差成正比,而与样本含量(n) 的平分根成反比。用来衡量抽样误差。在实际工作中,我们无法直接了解研究对象的总体情况,经常采用随机抽样的方法,取得所需要的指标,即样本指标。样本指标与总体指标之间存在的差别,称为抽样误差,其大小通常就用均数的标准误来表示。

意义:标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。样本人数越大,标准误越小,那么抽样误差就越小,表明所抽取的样本能够较好地代表样本。


总结一下这2者的区别:

1、标准差是对一次抽样的原始数据进行计算的,而标准误则是对多次抽样的样本统计量进行计算的(这个统计量可以是均值)。

2、标准差只是一个描述性指标,只是描述原始数据的波动情况,而标准误是跟统计推断有关的指标,大多数的统计量计算都需要用到标准误。


举个简单的例子:

例如我们要调查南京地区中10岁男孩的身高。如果全部都统计下来,直接测是最准确的数据。但是成本高,不现实。因此需要进行采样,一次测量100个男孩的身高,求这一次的均值M1与标准差S1,如果采样10次,每次都取100人,我们会得到10个均值,分别记为M1,M2,M3…M10,对这10个均值再求一个均值M以及标准差S,其中这个标准差S就是标准误,即均值的标准误差。


这2个到底怎么去用呢?

1. 比如样本中的每个值代表一个不同的个体,这时我们可能想要展示每个值之间的差异,这时就应该选择报告SD。

2.如果是利用均值进行t检验或者方差分析,或者展示数值与模型预测之间的接近程度,那么与显示数值之间的变异性相比,我们更感兴趣的是显示样本数值定义均值的准确性,那么在这种情况下,就报告SEM。



没有账号?