数据偏态分布，统计方法不对怎么办？_统计与绘图_实用技巧

这里大家可以思考几个问题：

第一，审稿人为什么怀疑数据是偏态的？

第二，我们是不是一定要按照审稿人意见来？

第三，偏态分布一定不能采用t检验，F检验吗？

第一，审稿人为什么怀疑数据是偏态的？

一般出于两点情况，

第1，有些变量，理论上就是偏态分布的；理论上偏态分布指的是这个变量正常情况下偏态分布是一种常识，不用通过软件分析就能够知道的，比如人体血铅含量、癌症指标甲胎蛋白、幼儿园儿童的视力、晚期癌症患者生存时间等。我有一次投稿的时候，专家就说，你的病程是偏态分布，为啥用均数来描述，我做了个正态性检验，果然是！

第2，在观察值都是正值的情况下，如果标准差特别大，比均数还要大。

比如，下面的例子，病程的标准差比均数还要大，那么就可以怀疑是偏态分布。

第二，我们是不是一定要按照审稿人意见来？

一般是先做一下正态性检验，若正态性检验P<0.05，直方图显示是偏态分布的，则可以按照审稿人意见来修改。他们最大，别惹恼了。哪怕我们觉得他不对，忍忍。

第三，偏态分布一定不能采用t检验，F检验吗？

这是数据分析阶段要考虑的问题。正态性检验P<0.05时，一定要采用秩和吗？不尽然。

对于成组设计的t检验，一般存在着两种观念。第一，各组样本均来自于正态分布的总体。一般可通过正态性检验来进行判断，比如采用Shapiro-Wilk检验方法，如果至少一组P<0.05，则被认为正态性不符合，差异性比较采用秩和检验；第二，根据中心极限定理，无论样本来自何种分布，只要样本量足够大（一般认为样本量大于50即为足够大），其样本均值均近似服从正态分布。因此样本量较大时，完全可以忽视正态性问题，仍然可以采用参数检验方法。上述两个观念相互矛盾，令统计分析人员非常困惑。

郑老师认为，在实践中，正态性检验的方法是一种参考的方法，但它并不能扮演决定性角色，应结合直方图或者Q-Q图进一步的分析。两者方法结合，可以将数据分为正态、近似正态与严重偏态三种形态。

实际统计策略方面，诸位可以将数据分布分为三类：正态分布、近似正态分布数据和严重偏态分布数据。

第1类：正态分布符合，P>0.05; 直方图大致中间多两边少：这一类可以采用均数描述，采用t、F检验

第2类：正态分布不符合，P<0.05，但直方图还是呈现大致的中间多两边少，无严重极端值；这一类也可以采用均数描述，采用t、F检验；而采用非参数秩和检验，也没有问题，要视情况而定。

第3类：正态分布不符合，P<0.05，数据严重偏态，或者存在明显极端异常值。应采用中位数和四分位数间距来描述，采用非参数秩和检验

怎么理解郑老师分出来的三类型和相应的统计学分析策略呢？

一般来说，第一类模式很好理解，正态性检验P大于0.05，一般是正态分布，当然做t检验没有，第三类，正态性检验P值小于0.05，直方图又严重偏态分布，显然要用秩和检验。

关键第二类，大家很难理解，明明正态性检验P值小于0.05，为何还可以进行均数描述，进行t检验F检验呢？

原因有两点，

（1）均数描述和t检验是最统计学最灵活最好使的方法，如果偏态分布不严重，他们的结果也是可靠的！

（2）关键是很多时候，利用正态性检验结果P值来反映正态性是不妥当的。这是因为，P值非常容易受到样本量影响；样本量越大，P值越小，大样本的时候P值总是<0.05，哪怕数据是几乎几乎完美正态。

举个例子：

我在《卫生统计学》课程介绍正态性的问题，碰到一个超过10000多例研究对象的样本，其正态性检验如下：

P<0.05，表明是偏态数据，但是其直方图如下：

这个数据，满足我上文讲的第二类分布。它虽然P<0.05，但是是典型的近似正态分布，在统计描述上，可以用均数及标准差描述，用t检验和F检验进行统计推断，

第四，最后，我来几个疑点的问题

1.近似正态分布有没有标准判定法？

这个没有，有人通过偏度系数来判定、或者通过均数中位数的差距来判定，但都没有界值。我看，还是直方图看看，差不多即可。不要太偏态。

比如下面这4幅图，哪些是偏态分布，又有哪些是近似正态分布呢？

我认为2是近似正态，而1、3、4是严重偏态分布。

2. 大样本（比如超过100的样本量）两组数据的比较，严重偏态分布是否可以采用t检验？

网络上、甚至统计学教材中认为，大样本资料可以无视正态性问题。他们认为“根据中心极限定理，无论样本来自何种分布，只要样本量足够大（一般认为样本量大于50即为足够大或者更大的100以上），其样本均值均近似服从正态分布。因此样本量较大时，完全可以忽视正态性问题，仍然可以采用参数检验方法”。

这是不对的。根据中心极限理论采用t检验本身没有错。以均数为基础的t检验，是可以比较两组大样本数据均数的差异性。但是问题在于，两组严重偏态分布数据，不能用来均数来表现数据，不能用均数来描述它。t检验是可以说两组均数是否有差异，但是均数的差异不能说明两组严重偏态数据的差异性（至少也得用中位数体现呀）。因此，t检验结论无法反映两组严重偏态数据的分布差异性，哪怕你是大样本！

3. 正态性检验P值大于0.05，一定可以用均数描述，用t检验吗？

不见得，我在推文一开就说，很多时候一些指标理论上就是偏态分布的，要小心谨慎使用t检验。

理论上就是偏态分布的数据，为什么正态性检验P值还大于0.05？因为样本量小了！样本量大了，再正态的数据正态性检验P值也会小于0.05；样本量小了，偏态分布数据正态性检验P值也可能大于0.05。

所以说，结合直方图或者QQ图之类来看数据，还是非常重要的。特别是大样本时候。不要偏信P值，它不是一切！

来源：医学论文与统计分析

科研星球

数据偏态分布，统计方法不对怎么办？

标签