科研星球

临床预测模型中的变量筛选方法

SPSS变量筛选方法

在SPSS中的Logistic回归和Cox回归分析时,软件一般给出了7种变量筛选的方法:

  1. 条件参数估计似然比检验(向前:条件);
  2. 最大偏似然估计的似然比检验(向前:LR);
  3. Wald卡方检验(向前:Wald);
  4. 条件参数估计似然比检验(向后:条件);
  5. 最大偏似然估计的似然比检验(向后:LR);
  6. Wald卡方检验(向后:Wald);
  7. Enter法(变量全部进入)。

文献报道

在文献报道中,作者一般会先对每个变量逐一进行单因素回归分析,P值小于0.1的纳入最终回归方程中(这里P值可以小于0.05或0.2,但一般情况下P值可以在0.05-0.2之间)。这种方法存有很大争议。

那么如何选择更好的方法进行变量筛选呢?

老实说,没有标准答案

变量筛选的基本原则

(1) 当样本量足够大,统计检验能力足够时,可以从我们前面提到的六种筛选方法中选择一种

据此,我们介绍了一种可以帮助快速评估统计学效能的标准:每个变量至少要20个有效样本(事件)。例如,在Cox回归模型中,如果我们纳入10个与预后相关的变量,至少应该招募200名发生事件的患者来评估终点事件,如死亡(应该纳入200名发生死亡结局的患者,而不是总共200名患者)。因为那些没有端点事件的样本不能被认为是有效样本。

(2) 当样本量不符合第一个条件或因其他原因统计效能不足时,应采用大多数临床研究中普遍采用的方法。即可以先对每个变量逐个进行单因素回归分析,P值小于0.2的变量将纳入最终回归方程中。但是这种方法在广泛应用的过程中也颇具争议性。

(3) 即使是第二种方法,在执行过程中也可能会受到挑战。有时,我们发现一些与预后密切相关的变量可能会被排除在已建立的筛选标准外,例如,在一项前列腺癌预后研究中,作者发现在单因素回归模型中Gleason评分与预后没有显著相关性,而Gleason评分在以前的研究中是前列腺癌预后的确认因素。

那么我们现在该怎么办呢?

我们认为,应该将那些与预后显著相关的,但在统计筛选中,不符合标准的变量也纳入最终模型中,这么做是从临床专业的角度进行考虑。综上,笔者推荐第三种变量筛选的方法,统筹考虑统计学上的单因素分析结果与临床专业知识决定纳入最终回归模型中的变量。单因素分析结果和临床因素,样本量和统计效能应综合考虑。

变量筛选的五个考虑因素

  1. 临床专业知识。这一点应该是变量筛选最基础的考量,根据目前临床专业知识,已知的确定与结局发生有关的变量应该纳入回归模型,而不去过多考虑其统计学意义。如前文所述例子:Gleason评分与前列腺癌预后显著相关,这是我们的共识,那么对于评价前列腺癌预后影响因素的分析,像Gleason评分这样的变量应该参与建模,而无需去考虑其统计学参数是否有统计学意义。
  2. 根据单因素分析结果筛选变量,单因素分析P值“显著”的变量放入多元回归方程。所谓P值“显著”一般设为P<0.1,也可设为P<0.2或者P<0.05,需根据样本量大小做出调整,样本量够大可以把P值调小,样本量不足则需要更保守一点,把P值设大。这一类变量筛选方法在既往发表的临床研究论文中很常见,即便是高分论文中也很常见。尽管对于这种方法,绝大多数统计学家提出质疑。而现实情况是:如果弃用这种方法,目前是否有更加准确的、更科学的替代方法呢?答案显然是否定的,统计学家也并未找到更有说服力的新方法。
  3. 根据混杂因素“Z”对试验因素或暴露因素“X”的影响大小筛选变量。具体说来,先观察调整“Z”与不调整“Z”,“X”对因变量“Y”的作用是否有变化。先运行仅纳入“X”的基本模型,记录回归系数β1,再在该模型中加入“Z”,看β1变化多大,通常认为β1变化超过10%则需要调整该变量,否则不需要。这种方法与第2种根据单因素分析结果筛选变量的差别在于:这里把混杂因素对试验因素的影响量化。这种方法也并非是完美的,“Z”和“X”对“Y”的影响也同样可能受到其他混杂因素的影响。如果沿着这个思路继续思考下去,我们会陷入一个思维的“怪圈”。我们暂且把这个方法认为是一个可供参考的变量筛选方法。
  4. 决定最终纳入模型的变量的个数。这点至关重要。如果样本量足够大,统计效能足够,我们可以借助统计软件提供的变量筛选方法自动筛选变量,并可以筛选出适合的独立影响结果的变量。但“理想很饱满,现实很骨感”。往往我们考虑变量很多的时候,样本量却很小。我们需要在统计效能和变量筛选之间做出妥协。
  5. 以上列举了四种变量筛选方法,此外还有很多其他变量筛选方法,比如根据模型参数:决定系数R^2,AIC,似然比对数、C指数等等。筛选变量的方法越多,越证明没有最好的方法。只有基于客观条件的最合适的选择才是好的,所以从这个意义上讲作者只需要选择合适的变量筛选方法即可。

参考文献

Zhou ZR, Wang WW, Li Y, et al. In-depth mining of clinical data: the construction of clinical prediction model with R. Ann Transl Med. 2019;7(23):796. doi:10.21037/atm.2019.08.63


没有账号?