科研星球

临床研究的统计分析方法选择

临床研究统计概述

医学统计学是处理医学资料中的同质性(homogeneity)和变异性(variation)的科学。临床研究中的资料类型,可以分为以下几类:


第一类 计量资料,例如身高、体重、糖化血红蛋白等,取值范围可以无穷小也可以无穷大,是一个连续性变化,也被称为连续性变量。

第二类 计数资料,包括二分类:是/否;多分类:工人、农民、知识分子…计数资料容易和计量资料混淆,例如培养皿中的存活率,60%或70%为计量资料,而培养皿存活与否,是二分类的计数资料。

第三类 等级资料,如尿蛋白的定性结果(-、+、++);无效、好转、显效…

第四类 生存资料,如存活和存活时间、复发与复发时间。仅仅知道是否存活,是计数资料;而存活的具体时间就是生存资料。

 

总体而言,统计分析先可以分为两类,一类为统计描述,一类为统计推断。例如在临床研究摘要的结果部分,经常可见类似描述,A组的结果为8.90,B组的结果为12.3,A 组和 B 组差异有统计学意义(p<0.05)。其中,A 组和B 组的具体数值是统计描述,A组和B组的差异有统计学意义是统计推断。

 

0.png

单因素分析与多因素分析

临床研究通常研究因和果的关系,例如研究某药是否有效,药是因,疗效是果。在进行因果研究时,针对一个结局,往往有很多原因,还有一些未知的原因。例如,人为什么会得高血压?可能与遗传有关,也可能与生活习惯、应激事件等其他因素有关,还可能与一些未知因素有关。当只研究某一因素与结局的关系,而不考虑其他因素时,就是单因素分析。当同时研究多种因素与结局的关系时,就是多因素分析

 

单因素分析

单因素分析是比较单个自变量x与因变量y的关系。常见的单因素统计方法包括简单相关、t检验、χ2检验、AVOVA、非参数检验等。

 

t检验 (Gosset)

t检验的发明人是Gosset,Gosset毕业后进行了许多关于酵母菌的研究和小麦的研究。例如要比较马路两边的小麦产量是否一样,马路左边和右边都会有产量的均数和标准差,要比较两个均数相不相等,差异有没有统计学意义。t检验就是用于两个均数的比较,后续又发展出了配对 t检验、单样本t检验等。


0.jpg


χ2检验 (Pearson)

卡方检验是由Pearson提出的。如下图中的化疗组与化疗加放疗组的有效率差异有没有统计学意义,就是卡方检验。

0 (1).png

图. 普通卡方检验

 

另一种类型是配对卡方检验,例如,下图中共有28 个标本,每一个标本都分成两份,一份放在甲培养基,一份放在乙培养基,最后看甲乙两个培养基培养出来的阳性和阴性结果的差异有没有统计学意义,检验的是甲乙两个培养基的培养能力是否一样。

0 (2).png

图. 配对卡方检验

 

AVOVA (R.A.Fisher)

上面提及的方法都是两组之间的比较,当涉及比较多组(三组及以上)均数时,需采用AVOVA,即方差分析,最初是由R.A.Fisher提出。类型包括单因素方差分析、两因素方差分析、重复测量方差分析、协方差分析等。

 

非参数检验

连续性变量、方差分析、t检验都要求数据正态性。当数据不服从正态分布时,就需要用到非参数检验方法,具体如下图。


0 (3).png

多因素分析

如上所述,单因素分析是研究一个因变量与一个自变量之间呈直线关系的统计方法。多因素分析则是研究一个因变量和多个自变量之间线性关系的统计分析方法。在临床研究中,如果条件允许,尽可能进行多因素分析。多因素分析最常用的就是多因素回归,包括线性回归,Logistic回归和Cox回归。


0 (4).png


多因素线性回归

简单举个例子,如果在一片空旷的草原上面,有很多居民,此时修一个自来水管,方便所有的居民取水。应该如何做呢?首先把居民居住的点都画出来,然后把自来水管划条线,确保每一个居民离这条线的垂直距离之和最小。上述思路就是线性回归的核心思想,即每一个居民距离水管的距离平方和最小。


0 (5).png


Logistic回归

Logistic回归属于概率型非线性回归,是研究二分类观察结果(可扩展到多分类)与影响因素之间关系的一种多因素分析方法。在临床工作中,经常需要去分析疾病与各危险因素之间的定量关系,如研究食道癌的发生与吸烟、饮酒、不良饮食习惯等危险因素的关系。


Cox 回归

举个例子,某研究者想研究ICU中结核危重患者的生存时间和预后因素,他不仅收集了患者的结局(存活或转出ICU),还收集了患者发生结局的时间。如果只收集了是否存活的指标,并需要去探索存活的影响因素,可以采用Logistic回归。研究者还收集了发生结局的时间,可以采用Cox 回归。


0 (6).png


三种多因素分析的比较

三种多因素回归分析的最大的区别是Y不同。线性回归中,Y 是个连续性变量,Logistic回归中,Y 是个二分类变量,就是 0 和 1 ,例如治好和没治好。Cox回归中,Y同时还是个生存变量,不仅知道是否治好,还知道是什么时候治好,或者截止什么时候还没有治好。具体比较参见下图。

 

0 (7).png


本文来源:陶立元博士(北京大学第三医院)的《临床研究统计分析方法选择及样本量估算概述》 


没有账号?