科研星球

数据偏态分布,统计方法不对怎么办?

这里大家可以思考几个问题:


第一,审稿人为什么怀疑数据是偏态的?
第二,我们是不是一定要按照审稿人意见来?
第三,偏态分布一定不能采用t检验,F检验吗?

第一,审稿人为什么怀疑数据是偏态的?

一般出于两点情况,
第1,有些变量,理论上就是偏态分布的;理论上偏态分布指的是这个变量正常情况下偏态分布是一种常识,不用通过软件分析就能够知道的,比如人体血铅含量、癌症指标甲胎蛋白、幼儿园儿童的视力、晚期癌症患者生存时间等。我有一次投稿的时候,专家就说,你的病程是偏态分布,为啥用均数来描述,我做了个正态性检验,果然是!

第2,在观察值都是正值的情况下,如果标准差特别大,比均数还要大。

比如,下面的例子,病程的标准差比均数还要大,那么就可以怀疑是偏态分布。
0.jpg

第二,我们是不是一定要按照审稿人意见来?

一般是先做一下正态性检验,若正态性检验P<0.05,直方图显示是偏态分布的,则可以按照审稿人意见来修改。他们最大,别惹恼了。哪怕我们觉得他不对,忍忍。

第三,偏态分布一定不能采用t检验,F检验吗?

这是数据分析阶段要考虑的问题。正态性检验P<0.05时,一定要采用秩和吗?不尽然。

对于成组设计的t检验,一般存在着两种观念。第一,各组样本均来自于正态分布的总体。一般可通过正态性检验来进行判断,比如采用Shapiro-Wilk检验方法,如果至少一组P<0.05,则被认为正态性不符合,差异性比较采用秩和检验;第二,根据中心极限定理,无论样本来自何种分布,只要样本量足够大(一般认为样本量大于50即为足够大),其样本均值均近似服从正态分布。因此样本量较大时,完全可以忽视正态性问题,仍然可以采用参数检验方法。上述两个观念相互矛盾,令统计分析人员非常困惑。

郑老师认为,在实践中,正态性检验的方法是一种参考的方法,但它并不能扮演决定性角色,应结合直方图或者Q-Q图进一步的分析。两者方法结合,可以将数据分为正态、近似正态与严重偏态三种形态。

实际统计策略方面,诸位可以将数据分布分为三类:正态分布、近似正态分布数据和严重偏态分布数据。

第1类:正态分布符合,P>0.05; 直方图大致中间多两边少:这一类可以采用均数描述,采用t、F检验

第2类:正态分布不符合,P<0.05,但直方图还是呈现大致的中间多两边少,无严重极端值;这一类也可以采用均数描述,采用t、F检验;而采用非参数秩和检验,也没有问题,要视情况而定。

0 (1).png

第3类:正态分布不符合,P<0.05,数据严重偏态,或者存在明显极端异常值。应采用中位数和四分位数间距来描述,采用非参数秩和检验
0.png

怎么理解郑老师分出来的三类型和相应的统计学分析策略呢?

一般来说,第一类模式很好理解,正态性检验P大于0.05,一般是正态分布,当然做t检验没有,第三类,正态性检验P值小于0.05,直方图又严重偏态分布,显然要用秩和检验。

关键第二类,大家很难理解明明正态性检验P值小于0.05,为何还可以进行均数描述,进行t检验F检验呢?

原因有两点,
(1)均数描述和t检验是最统计学最灵活最好使的方法,如果偏态分布不严重,他们的结果也是可靠的!
(2)关键是很多时候,利用正态性检验结果P值来反映正态性是不妥当的。这是因为,P值非常容易受到样本量影响;样本量越大,P值越小,大样本的时候P值总是<0.05,哪怕数据是几乎几乎完美正态。

举个例子:
我在《卫生统计学》课程介绍正态性的问题,碰到一个超过10000多例研究对象的样本,其正态性检验如下:

0 (2).png

P<0.05,表明是偏态数据,但是其直方图如下:
0 (3).png

这个数据,满足我上文讲的第二类分布。它虽然P<0.05,但是是典型的近似正态分布,在统计描述上,可以用均数及标准差描述,用t检验和F检验进行统计推断,

第四,最后,我来几个疑点的问题

1.近似正态分布有没有标准判定法?

这个没有,有人通过偏度系数来判定、或者通过均数中位数的差距来判定,但都没有界值。我看,还是直方图看看,差不多即可。不要太偏态。

比如下面这4幅图,哪些是偏态分布,又有哪些是近似正态分布呢?
0 (4).png

我认为2是近似正态,而1、3、4是严重偏态分布。
0 (5).png

2. 大样本(比如超过100的样本量)两组数据的比较,严重偏态分布是否可以采用t检验?

网络上、甚至统计学教材中认为,大样本资料可以无视正态性问题。他们认为“根据中心极限定理,无论样本来自何种分布,只要样本量足够大(一般认为样本量大于50即为足够大或者更大的100以上),其样本均值均近似服从正态分布。因此样本量较大时,完全可以忽视正态性问题,仍然可以采用参数检验方法

这是不对的。根据中心极限理论采用t检验本身没有错。以均数为基础的t检验,是可以比较两组大样本数据均数的差异性。但是问题在于,两组严重偏态分布数据,不能用来均数来表现数据,不能用均数来描述它。t检验是可以说两组均数是否有差异,但是均数的差异不能说明两组严重偏态数据的差异性(至少也得用中位数体现呀)。因此,t检验结论无法反映两组严重偏态数据的分布差异性,哪怕你是大样本!

3. 正态性检验P值大于0.05,一定可以用均数描述,用t检验吗?

不见得,我在推文一开就说,很多时候一些指标理论上就是偏态分布的,要小心谨慎使用t检验。

理论上就是偏态分布的数据,为什么正态性检验P值还大于0.05?因为样本量小了!样本量大了,再正态的数据正态性检验P值也会小于0.05;样本量小了,偏态分布数据正态性检验P值也可能大于0.05。

所以说,结合直方图或者QQ图之类来看数据,还是非常重要的。特别是大样本时候。不要偏信P值,它不是一切!


来源:医学论文与统计分析

相关推荐:
没有账号?