科研星球

解析连续变量相关性分析中的4大常见问题

相关性分析


相关分析属于数据分析流程前期的探索性分析,探究变量间关系及性质,能够简单有效说明两变量间存在什么关系,不能把毫无本质联系的两种现象做相关分析。


另外,需要注意的是,因果关系≠相关关系,因果关系指的是因为某个变量发生变化而导致了另外一个变量随之发生改变, 其强调的是二者之间存在某种理论逻辑上的关联,有相关关系不一定有因果关系, 但有因果关系就必定存在相关关系。


相关关系分析流程


0.png


相关系数


相关系数取值范围在[-1,+1],负数代表负相关,正数代表正相关。相关系数越接近0,线性相关关系越弱,相关系数越接近-1或+1,线性相关关系越强,相关系数=0,为零相关,只能说明线性关系很差,但不能说明没有关系。


0 (9).png


Pearson相关


两个随机变量之间呈现线性趋势的关系,称为线性相关,又称简单相关,线性相关系数,又称Pearson相关系数,定量描述两个变量之间的线性关系的密切程度和相关方向。


Pearson相关分析,需要考虑几个条件

1、两个变量都是连续变量

2、两个连续变量之间存在线性关系,通常做散点图检验该假设

3、两个变量符合双变量正态分布


举个例子


某研究人员拟探讨胆固醇浓度与久坐时间是否有关,数据如下:




0 (1).png


散点图结果显示,久坐时间与胆固醇水平之间存在正向的线性关系,即随着久坐时间增加,胆固醇水平也在增加。


SPSS结果


0 (2).png



结果显示,久坐时间和胆固醇浓度存在正相关关系,Pearson相关系数r =0.791,P<0.001。


Spearman相关


相对于Pearson相关,Spearman相关使用的范围更广,对于不服从正态分布的资料、总体分布未知的资料和等级资料可以使用Spearman相关。


进行Spearman相关分析,也需要考虑几个条件:


1、观测变量是非正态分布(或者有不能剔除的异常值)的连续变量

2、变量之间存在单调关系


举个例子


某研究人员拟分析内体两种生化指标A和B的相关性,数据如下:


0 (3).png


首先从数据分布来看,A指标和B指标呈偏态分布


0 (5).png


从单调性来看,两指标呈单调关系


0 (4).png


SPSS结果


0 (8).png

0 (10).png


结果显示,A和B存在正相关关系,Spearman相关系数r =0.729,P<0.001。


总结与思考


1. 在进行相关性分析前,应先绘制散点图

2. Pearson相关适用于二元正态分布资料

3. Spearman相关适用于非正态、总体分布未知或等级资料

4. 相关关系不等同于因果关系,具有相关性不一定具有因果关系

5. 相关性分析受异常值的影响较大,在应用前要对异常值进行处理


来源:医咖会


没有账号?