控制混杂偏倚的回归自变量筛选法，推荐Change-in-Estimate法_统计与绘图_实用技巧

一、回归控制混杂偏倚，如何开展自变量筛选？

回归分析在医学领域，常见的三类目的：研究影响因素、控制偏倚、预测与分类。前面两类目的，性质极为相似，研究因素往往在一个模型中探讨多个影响因素的共同作用；而控制偏倚，也是探讨影响因素，而它聚焦于一、两个目标暴露因素或者处理因素，希望通过剔除其它干扰因素的影响从而实现科学评价目标因素的对结局的影响或者效应。

关于这两个目的的区别，在前文就案例有所陈述，有兴趣的朋友可以翻出来看看：为什么回归分析可以控制混杂偏倚？

对于研究影响因素的回归分析，建议先基于有向无环图（DAG）方法大致建立因果关系网络，再筛选合适的自变量进入模型；在自变量过多时，可考虑在DAG基础上，采取先单因素后多因素的方法；考虑多层次多模型的方法（上一讲已经介绍了）分析中介变量的影响。我后面文章再进行介绍。

那么如果研究目标因素只有一个暴露因素或者处理因素，是否还要先单因素或者多因素呢？可能目前“先单后多”是大多数人所采取的方法了。该方法使用没有问题，不过我本人更推荐的方法是DAG+效应改变的方法进行。

效应改变法是一种数据驱动的自变量筛选方法，它是通过剔除多因素回归模型中对重要的自变量效应影响不大的变量从而减少自变量个数的方法。这些目标研究因素效应改变较大的，一般是混杂因素，需要留在多因素回归模型中。

二、研究案例

这是一项关于胰腺癌病人生存时间的研究。该研究的终点为死亡，此外结局指标还包括生存时间。本案例与之前论文案例类似，跟结局有关的研究变量较多，但与之前有所区别的是，本篇主要关心的是术中放疗对生存结局的影响。

下载.jpeg

根据研究目的，术中放疗是目标研究因素，结局是带有生存时间的结局，研究应采用开展COX多因素回归分析，探讨术中放疗对生存结局的影响。

首先，我们把所有因素都放入回归模型中，获得本研究的全因子模型，具体结果如下图。术中放疗效应指标为HR=0.302。效应指标，在回归分析中，可以是b值，可以是OR、RR值，也可以是HR值。

下载 (1).jpeg

由于上述回归模型是全因子模型，很多自变量放在模型中没有意义。模型意义不大，放在模型往往徒增复杂，对模型不利，不符合我所说的大道至简的理念？需要逐一进行审查和剔除！

三、效应改变法原理

Hsin-Yi Weng等人2007年发表的论文，把效应改变法归为两类：

第一类，剔除自变量后，对最初模型目标因素效应值的影响不超过10%者，删除变量，否则则保留。

第二类，剔除自变量后，相对未剔除该自变量，目标因素效应值影响不超过10%时，则删除变量，否则则保留。

论文最常见的是方法第一类，本文亦对第一类进行详细解释。

第一类效应改变法原理

最初模型中包括性别、占位处、胰胆管浸润程度、有无腹膜转移、TNM分期，最初模型的目标变量术中放疗的HR值为0.302。

现在根据以下公式计算，效应改变量

下载 (2).jpeg

HRi为剔除某一个自变量后，术中放疗的HR值，当

下载 (3).jpeg ，

或者说HR值改变不超过10%时，该自变量可以舍弃掉不要了，因为它对术中放疗的HR值影响不大。

比如，试着剔除年龄的变量，得到HR=0.208，则|0.302-0.208|/0.302=21.3%，远远大于10%的界限，因此，年龄需要保留。

下载 (4).jpeg

四、效应改变法的具体做法

首先，我们将逐一剔除每一个变量，分别构建回归模型，得到所有的术中放疗的HR值，挑选出一个对HR影响最小，且不超过10%的删除出去。

然后，开始第二轮，逐一剔除余下的每一个变量，分别构建回归模型，再挑选一个HR影响最小且不超过10%的自变量删除出去，以此类推，直到自变量再无法删除为止。

本案例，是否留在模型的HR值界限为0.272，根据这个界限，我们可以得到以下结果：

第一轮，bui被剔除，第二轮，stage被剔除，第三轮sex被剔除，最后一轮，没有剔除者。

下载 (5).jpeg

最终纳入模型的变量是纳入年龄、胰胆管浸润程度、有无腹膜转移三个变量与目标变量书中放疗。最终多因素回归的结果如下表，得到HR为0.299。

纵观整个过程，这种方法其实和向后逐步回归法（backward）非常相似，只不过诸位学过的向后逐步回归法是根据整个模型总体拟合度是否跟上一个模型是否存在着统计学差异进行筛选。因此效应改变法也有向前逐步法（forward），或者双向逐步回归法的理念（stepwise），但一般不采用向前法和双向逐步法，因为基准值难以设定！

五、其它事项

效应改变法一般用于控制混杂因素时采用，而它不着重探讨哪个因素是否独立的影响因素，关键看起对目标变量的影响，因此倘若构建一个多因素模型，探讨各个因素对结局的影响，不建议使用该模型，但如果目标是混杂因素，则推荐使用该方法。

效应改变法在干扰因素数量非常大的情况下，在操作上具有一定的困难，需要借助自动化的程序来进行，比如R语言；如果在干扰因素非常多的情况下，可以先单因素分析后，再借助效应改变法，或推荐倾向得分的方法进行处理，效果会更好些。

效应改变法，特别需要与DAG方法联合。这是因为，效应改变法难以应付中介变量的影响。若一个变量对目标暴露因素的效应值影响超过10%，不代表它是混杂因素，它可能是中介变量！中介变量当然不能纳入模型了。必要的时候，也需要开闸多层次建多模型的方法。

混杂因素控制，是否都需要采用效应改变法或者“先单后多”？那大可不必！我认为，在混杂因素不多的情况下，在已经考虑了中介变量的情况下，完全可以一口气将所有变量连同目标变量放入模型中！

科研星球

控制混杂偏倚的回归自变量筛选法，推荐Change-in-Estimate法

标签