科研星球

《新英格兰医学杂志》统计学规范及其出台背景

《新英格兰医学杂志》(NEJM)发表的绝大多数研究论文都要经过至少一位统计学编辑的评审,约20%的稿件在修改阶段因为统计分析问题而被拒稿。NEJM目前有6位统计学编辑:

  • Constantine Gatsonis,布朗大学生物统计学和应用数学教授

  • Joseph Hogan,布朗大学生物统计学教授

  • Rebecca Hubbard,宾夕法尼亚大学附属医院

  • David Hunter,哈佛陈曾熙公共卫生学院生物统计学教授

  • Sharon-Lise Normand,哈佛医学院卫生政策教授

  • Andrea Troxel,纽约大学Grossman医学院生物统计学教授


我们在此发布NEJM统计学规范全文翻译以及2019年新版统计学规范颁布时NEJM配发的社论,并建议您在设计和报告研究时遵循这些规范。

所有研究

  • 所有论文的“方法”部分应简要说明该研究对于样本量和统计学功效的考虑,并简要说明主要结局和次要结局的分析方法。

  • 所有论文的“方法”部分应说明如何处理缺失数据。除非数据缺失很少,否则只分析具有完整信息的病例一般不能作为主要分析,而应基于数据缺失机制,使用适当的方法代替。当数据随机缺失时,可采用多重填补法或逆概率样本权重法;当数据缺失并非随机,基于模型的方法可能更适合。关于本刊的临床试验缺失数据的一般处理方法,请参见Ware等的论文(N Engl J Med 2012;367:1353–1354)。

  • 显著性检验中统计效应值、关联度或关注的其它参数的估计量都应附有相应的置信区间。置信区间应进行校正,从而匹配相应检验中对显著性水平所做的校正。

  • 除非研究设计(如非劣效性临床试验)要求进行单侧检验,否则所有报告的P值都应是双侧检验的P值。一般而言,大于0.01的P值应保留两位小数,0.01~0.001之间的P值应保留三位小数;小于0.001的P值应报告为P<0.001。在这一规定中,值得关注的例外情况包括从预先设定终止规则的临床试验所获得的P值,或全基因组关联研究所获得的P值。

  • 报告结果时,精确度不应超过由科学意义和样本量所界定的精确度。例如,比值比等关联度一般应报告两位有效数字。从模型得出的结果应限制在适当的有效数字。


临床试验

  • 原始和最终试验方案及统计分析计划(SAP)应在投稿时一并提交,并且需要提交对试验方案和SAP做出的修正列表,以说明修订日期和修订内容。

  • 在报告临床试验结果的论文中,对主要结局的分析应与原始试验方案中预先设定的分析一致,特殊情况除外。不符合试验方案的分析应在论文的“方法”部分说明理由。编辑可能要求作者补充提交试验方案中未包含的分析。

  • 在验证性分析中比较两组或多组结局时,研究者应采用试验方案和SAP中设定的检验程序来控制总的I型误差,例如Bonferroni校正或预设的分层检验。适当情况下应报告经多重性校正的P值,并且在论文中标明。在分层检验中,报告的P值仅截至P值具有统计学显著性的最后一项比较。第一项不显著的比较及之后所有比较的P值不应被报告。对于预先设定的探索性分析,研究者应采用SAP中说明的错误发现率的控制方法,例如Benjamini–Hochberg分析。

  • 如果临床试验的试验方案或SAP中未设定多重性校正方法或错误发现率控制方法,则对所有次要和探索性终点的报告应仅限于疗效的点估计值和95%置信区间。在这种情况下,“方法”部分应说明置信区间宽度未进行多重性校正,由此得出的推论可能无法重复。这些分析不应报告P值。

  • 请参考Wang等的论文建议的亚组分析方法(N Engl J Med 2007;357:2189–2194)。在SAP预先设定了亚组分析的情况下,该分析应符合SAP中描述的方法。如果研究团队认为对亚组进行事后分析具有重要意义,则应说明进行此项分析的理由,并在论文中清楚注明这属于事后分析。

  • 森林图常用于呈现所关注的各亚组中的疗效一致性。该图可有效显示各亚组的估计疗效,编辑建议在论文中给出重要亚组的森林图。然而,如果亚组很小,则关于疗效同质性的正式推论可能并不可行。治疗与亚组之间交互作用的一系列P值可能存在多重性问题,用于推断的价值有限。因此,在大多数情况下,森林图中不应提供交互作用的P值。

  • 如果安全性结局(当其不是主要结局时)的显著性检验与特定治疗的估计值一起报告,则无需进行多重性校正。因为安全性终点包含的信息可能提示在特定器官类别中存在问题,因此编辑认为大于0.05的I型错误率可接受。编辑可能要求报告不同治疗组之间不良事件发生率比较的P值,而不考虑上述比较是否是SAP中预先设定的比较。

  • 在可能的情况下,编辑倾向于作者在报告相对危险或风险比之前报告事件绝对数量或发生率,目的是向读者提供事件的实际发生率和相对发生率。应避免使用比值比,因为它们在许多情况下可能高估相对危险度并且被错误解读。

  • 作者应提供CONSORT格式的流程图。编辑还鼓励作者提交CONSORT清单中包含的所有相关信息。虽然上述全部内容可能不会随论文一起发表,但投稿时应在论文或补充附录中提供上述内容。CONSORT声明、清单和流程图请参见CONSORT网站。


观察性研究
观察性研究结果的有效性取决于几项重要假设,包括与样本选择相关的假设、测定和未测定的混杂因素以及混杂因素控制方法的充分性。观察性研究的“方法”部分应说明在研究设计和分析中如何处理这些问题和其他相关问题。

  • 如果一项观察性研究包含了预先设定并在其中说明待检验假设的SAP,则投稿时应附上签署了姓名和日期的SAP。本刊鼓励作者将观察性研究的SAP上传到专门为此设计的几个在线数据库之一。

  • 在适当情况下,如果观察性研究进行多重检验,应采用预先设定的可接受的方法来控制族系错误率(family-wise error rate)或错误发现率。在未预先设定错误控制方法的观察性研究论文中,汇总统计量应仅限于点估计值和95%置信区间。在这种情况下,“方法”部分应说明置信区间宽度未进行多重性校正,所得推断可能无法重复。这些分析不应报告P值。

  • 如果无预先设定的分析计划,则“方法”部分应列出计划的分析方法,包括

    • 选择病例时的纳入标准和数据采样方法,适当的情况下可附上图表。

    • 说明待估计的关联或因果关系,以及做出该选择的理由。

    • 用于对治疗或暴露效应或相关性做出推断的预先设定的分析方法。

  • 报告治疗或暴露效应的研究应说明潜在混杂因素和其他变量的分布,并根据暴露或干预组进行分层。如果分析依赖于不同暴露组的混杂因素达到平衡,则适当的情况下应采用点估计值和95%置信区间概括组间差异。

  • 复杂模型及其模型诊断通常最好在补充附录中加以说明。对于未测定的混杂因素所造成的偏倚,我们鼓励作者通过分析来量化对上述偏倚的潜在敏感性;如果未进行此项分析,则作者必须讨论未测定的混杂因素所造成的潜在偏倚。

  • 我们鼓励作者在类似但独立的一项或多项研究中再检验其研究结果,以评估研究结果的稳健性。

                                              

0.png

本刊统计学报告的新指南

New Guidelines for Statistical Reporting in the Journal

David Harrington, Ph.D., Ralph B. D’Agostino, Sr., Ph.D., Constantine Gatsonis, Ph.D., Joseph W. Hogan, Sc.D., David J. Hunter, M.B., B.S., M.P.H., Sc.D., Sharon‑Lise T. Normand, Ph.D., Jeffrey M. Drazen, M.D., and Mary Beth Hamel, M.D., M.P.H

N Engl J Med 2019; 381: 285-286

我们的一些读者可能已经注意到,在过去一年中,我们的研究论文报告的P值减少了。

例如,2018年11月,我们发表了维生素D和ω-3试验(Vitamin D and Omega-3 Trial,VITAL)的两份报告[1,2]。VITAL是一项2×2析因、安慰剂对照的随机试验,评估了维生素D或海洋n-3(又名ω-3)脂肪酸可否预防心血管疾病或癌症。

对于本试验的n-3部分,Manson等[2]报告了2项预设的主要结局及22个预设的和其他次要结局。这种形式的报告在投入资金巨大的大规模随机研究或观察性研究中并不少见。

n-3脂肪酸未显著降低主要心血管结局的发生率,也未显著降低癌症结局的发生率。如果作为独立结果报告,有两项次要结局的P值将小于0.05;然而,与我们近期实施的在次要和其它比较中限制使用P值的指南相符,关于干预措施对这些次要结局产生的效应,文中仅报告了风险比和置信区间。

我们现在澄清、拓展并细化了为作者提供的统计学指南,其中涵盖了临床试验和观察性研究。新指南讨论了在NEJM发表研究报告的许多方面,包括在试验方案和统计学分析计划均未说明多重性校正方法的情况下,指南要求采用效应或相关性的估计值及95%置信区间代替P值。

本刊编辑和统计学顾问越来越关注显著性检验和P值在医学文献的过度使用和曲解。正如美国统计学会(American Statistical Association)在近期发表的文章中所总结的那样,P值有其优势,但也受制于其固有弱点[3,4]。

P值表示观测数据与零假设的不相符程度;“P<0.05”表示在治疗无效或暴露和应答不相关的零假设下和无混杂因素的假设下,疗效或暴露相关性大于观测值的可能性小于5%。我们断定零假设为假但是实际上零假设为真(统计学术语称作I型错误)的可能性小于5%。

在未进行多重性校正的情况下报告多个结局的P值时,在治疗差异不存在的情况下报告为存在治疗差异的概率远高于5%。当总共进行10个检验时,在无差异这一零假设为真的情况下,10个检验中至少有1个检验的P值小于0.05的概率可能高达40%。即使在无须进行多重性校正的情况下,P值也并不表示零假设为假的概率;P<0.05不表示零假设的概率小于5%。

由于P值未提供关于相关性估计的变异性(标准误)信息,因此不显著的P值不能区分真正可以被忽略的组间差异和由于标准误太大而不能提供信息的组间差异。P值未提供效应或相关性大小的信息。在研究中使用P值总结证据,一方面要求设立具有较强理论和经验性依据的阈值,另一方面要求适当关注对多个推断进行不加审辩地解读可能导致的错误[5]。

多重比较导致的这一夸大也会出现在研究者进行了多重比较,但未在文稿中报告的情况下。现在已有大量方法可用于多重比较校正,在研究设计中有设定的情况下,可用于控制统计学分析的Ⅰ型错误概率[6,7]。最后,如果P<0.05,则治疗对特定结局有效,如果未达到该阈值,则治疗无效,这是一种还原论的医学观点,不一定能反映现实。

虽然P值带来了这些困难,但其仍然在医学研究中发挥着重要作用,我们不认为应该完全取消P值和显著性检验。设计良好的随机或观察性研究会有一项主要假设和预先设定的分析方法,从该分析得出的显著性水平是观察数据与零假设(干预或暴露与应答无关)之间不一致程度的可靠指标。

医师和监管机构必须做出使用哪种治疗或者允许哪种治疗上市的决策,而如果我们可靠地计算出经过适当校正的阈值,则根据该阈值解读的P值可以在上述决策过程中发挥重要作用。

我们针对P值做出的方针修订是基于三个前提:在预先设定了分析计划的情况下,遵循计划很重要;利用统计学阈值说明存在效应或相关性时,应限于分析计划中注明了Ⅰ型错误控制方法的分析;关于治疗或暴露带来的获益和危害,其证据应包括点估计值及其误差界限。

我们承认,新指南可能在应用和解读方面带来了挑战,特别是对于习惯将P值或置信区间作为清晰标志,用于得出结论或主张的作者和读者。我们也理解,今天向本刊投稿的文章所报告的结果可能来自10年前设计的试验。我们愿意在新指南指导下与作者合作,从而以适当方式报告结果。

最后,现行指南仅限于采用传统频率学派设计和分析的研究,因为向本刊投稿的大部分文章均属于此类。我们无意暗示本刊只接受上述设计和分析。本刊已发表了许多使用贝叶斯学派设计和分析的研究[8-10],并期望未来看到更多这样的试验。在适当的时候,我们的指南将扩展其内容,纳入采用贝叶斯学派设计和其他设计的试验的最佳报告方法。


文章来源:NEJM医学前沿

1. Manson JE, Cook NR, Lee I-M, et al. Vitamin D supplements and prevention of cancer and cardiovascular disease. N Engl J Med 2019;380:33-44.

2. Manson JE, Cook NR, Lee I-M, et al. Marine n−3 fatty acids and prevention of cardiovascular disease and cancer. N Engl J Med 2019;380:23-32.

3. Wasserstein RL, Lazar NA. The ASA’s statement on p-values: context, process, and purpose. Am Stat 2016;70:129-33.

4. Wasserstein RL, Schirm AL, Lazar NA. Moving to a world beyond “p < 0.05.” Am Stat 2019;73:Suppl 1:1-19.

5. National Academies of Sciences, Engineering, and Medicine. Reproducibility and replicability in science. Washington, DC: National Academies Press, 2019.

6. Dmitrienko A, Bretz F, Westfall PH, et al. Multiple testing methodology. In: Dmitrienko A, Tamhane AC, Bretz F, eds. Multiple testing problems in pharmaceutical statistics. New York: Chapman and Hall/CRC Press, 2009:35-98.

7. Dmitrienko A, D’Agostino RB Sr. Multiplicity considerations in clinical trials. N Engl J Med 2018;378:2115-22.

8. Rugo HS, Olopade OI, DeMichele A, et al. Adaptive randomization of veliparib–carboplatin treatment in breast cancer. N Engl J Med 2016;375:23-34.

9. Park JW, Liu MC, Yee D, et al. Adaptive randomization of neratinib in early breast cancer. N Engl J Med 2016;375:11-22.

10. Popma JJ, Deeb GM, Yakubov SJ, et al. Transcatheter aorticvalve replacement with a self-expanding valve in low-risk patients. N Engl J Med 2019;380:1706-15.


没有账号?