科研星球

审稿人说,你的数据是偏态分布的,统计方法不对?怎么办?

这里我们这里思考几个问题.


第一,审稿人为什么怀疑数据是偏态的?

第二,我们是不是一定要按照审稿人意见来?

第三,偏态分布一定不能采用t检验,F检验吗?


审稿人为什么怀疑数据是偏态的?


一般出于两点情况,第一,有些变量,理论上就是偏态分布的。第二,标准差特别大,在观察值都是正值的情况下,标准差比均数还要大。


比如,下面的例子,病程的标准差比均数还要大,那么就可以怀疑是偏态分布。


下载 (5).jpeg


我们是不是一定要按照审稿人意见来?


一般是先做一下正态性检验,若正态性检验P<0.05,则可以按照审稿人意见来修改。他们最大,别惹恼了。


偏态分布一定不能采用t检验,F检验吗?


这是数据分析阶段要考虑的问题时,正态性检验P<0.05时,一定要采用秩和吗?不尽然。


对于成组设计的t检验,一般存在着两种观念。第一,各组样本均来自于正态分布的总体。一般可通过正态性检验来进行判断,比如采用Shapiro-Wilk检验方法,如果至少一组P<0.05,则被认为正态性不符合,差异性比较采用秩和检验;第二,根据中心极限定理,无论样本来自何种分布,只要样本量足够大(一般认为样本量大于50即为足够大),其样本均值均近似服从正态分布。因此样本量较大时,完全可以忽视正态性问题,仍然可以采用参数检验方法。上述两个观念相互矛盾,令统计分析人员非常困惑。实际上,这两种说法都不太正确。


笔者认为,在实践中,正态性检验的方法是一种参考的方法,但它并不能扮演决定性角色,应结合直方图或者Q-Q图进一步的分析。两者方法结合,可以将数据分为正态、近似正态与严重偏态三种形态。


实际统计策略方面,诸位可以将数据分布分为三类:正态分布、近似正态分布数据和严重偏态分布数据。


第1类:正态分布符合,P>0.05;

第2类:正态分布不符合,P<0.05,但直方图还是呈现大致的中间多两边少,无严重极端值;


第1类和第2类,均可以采用均数描述,采用t、F检验


640.png


第3类:正态分布不符合,P<0.05,数据严重偏态,或者存在明显极端异常值,应采用中位数和四分位数间距来描述,采用非参数秩和检验

下载 (6).jpeg


没有账号?