科研星球

SCI论文中的描述性统计(descriptive statistics)是什么?

对于科学研究来说,就是需要通过实验或调查等手段获取数据,进行必要的统计分析,对科学研究进行数据画像。那么因此,SCI论文中统计学内容一般包含描述统计分析。所谓描述性统计(descriptive statistics)即将调查样本中包含的大量数据资料进行整理和计算,对调查总体所有变量的有关数据进行统计学上的总结。简单来说,就是将一系列复杂的数据集用几个有代表性的数据进行描述,进而能够直观地解释数据的变动,主要包括数据的离散程度分析、集中趋势分析、频数分析、分布以及一些基本的统计图形。描述统计是推断性统计的基础。


以下是SCI论文中一些包含描述性统计内容的实例:


0.png

0 (2).png

0 (3).png


定量研究中,在收集数据后,统计分析的第一步是进行描述性统计,即描述回答样本数据的特征,如一个变量的平均值(如年龄),或两个变量之间的关系(如年龄和创造力)。在描述性统计的基础上,下一步研究工作是推论统计(Inferential statistics),用来帮助研究者决定样本的数据是否证实或反驳研究的假设,以及假设的结论是否可以推广到更大的总体中去,对统计总体的未知数量特征做出以概率形式表述的推断。


描述性统计有三种主要方法




1.频数分析,与各个体的变量值出现的次数有关。

2.集中趋势分析,与变量数值的平均值有关。

3.离散程度分析,与各个体的变量值之间差异程度有关。





在单变量分析中,一次只能评估一个变量,或者在双变量中比较两个变量之间关系或在多变量分析中比较多个变量之间的关系。


下面用一个研究实例来说明一下描述性统计的三种方法


实例1:某课题想按性别研究不同业余时间休闲活动的流行程度。研究项目分发一份问卷调查,并询问被调查者在过去一年中,他们做了以下每一项休闲活动的次数,三种活动分别为:


  • 去图书馆读书,简称为图书馆;

  • 在电影院看电影,简称为电影院;

  • 游览国家级公园,简称公园。


统计的数据集是对调查结果的收集。通常,可以使用描述性统计来找出每种活动的总体频率(分布)、每种活动的平均值(中心趋势)以及每种活动的离散程度(可变性)。


01 频数分析(Frequency distribution)


频数分布(frequency distribution),亦称“次数分布”,是数据的基本统计整理方式之一,即可以用数字或百分比总结变量每个测量值的频数或频率。频数一般是指每个数据出现的次数,而频率是指每个数据出现的次数与总次数的比值,是一种相对频数。


在SCI论文中,往往使用两种图表表达频数分布:简单频数分布表(Simple frequency distribution table)和分组频数分布表(Grouped frequency distribution table)。


简单频数分布表:

对于实例1,根据性别变量,在左边一栏列出所有可能的答案。计算每个答案的回答数或百分比,并将其显示在对应的右侧列中。


GenderNumber
Man242
Woman235
No answer37


从以上表格可以得出结论:在本项研究中,男性参与调查的人数比较多。


分组频数分布表:

对于实例1,在分组频率分布中,可以对每个答案的数值进行分组,并将每组的响应数相加,还可以将每个数字转换为百分比。


Library visits in the past yearPercent
0-3
8%
4-8
18%
9-12
40%
13-16
26%
17+8%


从上面这张表中可以看到,大多数人在过去的一年里去图书馆4到16次。


02 集中趋势度量(Measures of Central Tendency)

集中趋势度量表明数据集的中心或平均值,能够对总体的某一特征具有代表性,表明所研究的舆论现象在一定时间、空间条件下的共同性质和一般水平。平均值(mean)、中位数(median)和众数(mode)是估计集中趋势度量的三种方法。


平均值,是求平均值最常用的方法。这里的平均数是指算术平均数,即一组数据的和除以这组数据的个数所得的平均值,也叫算术平均值。


例如图书馆平均访问次数的数据集为{15, 3, 12, 0, 24, 3},则平均数为(15 + 3 + 12 + 0 + 24 + 3)/6 = 9.5


中位数,是正好位于数据集中间的值。为了找到中位数,将每个数据值从最小到最大排序。然后,中间数是中间数。如果中间有两个数字,则计算它们的平均值。对于数据集{15, 3, 12, 0, 24, 3},则中位数为(3 + 12)/2 = 7.5。当数据集中数据的大小趋势悬殊较大时,中位数比平均数更能代表整体水平,而数据大小趋势悬殊较小时,中位数和平均数都可以代表这组数据的整体水平。


众数,是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。对于数据集{0, 3, 3, 12, 15, 24},最频繁出现的众数是3。


1. 差异量数(Measures of Variability)

差异量数也称离中趋势量数,是指描述一组数据离中差异情况和离散程度的量数。差异量数的种类很多,主要包括极差(Range,R)、标准差 (Standard deviation, σ)、方差(Variance, σ2 ) 、四分位距(interquartile range, IQR)。下面简单介绍一下前三种方法:


极差(Range),又称范围误差或全距,是用来表示样本数据中最大值与最小值之间的差距,即最大值减最小值后所得之数据。


例如,过去一年来参观图书馆的次数为有序数据集:{0、3、3、12、15、24},则极差为:24–0=24。


标准差(Standard deviation)是数据的平均变异量,主要描述数据的离散程度,其符号为σ。它告诉大家,数据中平均每个分数离平均值有多远。标准差越大,数据集的离散程度就越大。例如,两组数的集合 {0,4, 9, 15} 和 {5, 6, 7, 10} 其平均值都是 7 ,但第二个集合具有较小的标准差。


计算标准差的步骤通常主要有三步:计算平均值、计算方差、计算标准差。例如,对于一个有八个数据的数据集{7,13,15,18,20,24,30,31},其标准差可通过以下步骤计算:


1)计算平均值:

0 (7).png


2)计算方差:

0 (1).png


3)计算标准差:

0 (4).png


方差(variance)是每个样本值与全体样本值的平均数之差的平方值的平均数,同样用来描述数据的离散程度,实际上就是标准差的平方,其符号为σ²。在统计学史上,方差早于标准差出现,但由于统计学家发现,方差和样本值不在同一个数量级内(因为是平方过来的),不便于比较样本值与偏差之间的关系。后来,统计家为了保证计算偏差值和实际样本值的单位统一(这个值和实际值的单位是平方关系) ,因此提出了把这个值再开平方一次,以保证它和样本值同样是一次幂单位。


以上面的数据集{7,13,15,18,20,24,30,31}为例:


0.jpg


如果以统计变量来说,描述性统计又可以分为单变量描述性统计、双变量描述性统计以及多变量描述性统计。


所谓单变量描述性统计是每次只关注一个变量的数据。下面本文举一个单变量描述性统计的集中趋势度例子,使用集中趋势度量的多种差异度量方法分别检查每个变量的数据是很重要的。像SPSS和Excel这样的软件工具或自己编写Python、R小程序都可以很容易地计算数据集的差异(离散)评价数值。


例1中采取到一年内访问图书馆次数的数据集{3,3,8,7, 14,18,20, 25, 22, 15, 9, 5,20,31},那么对它进行集中趋势度则有:


0 (8).png

0 (5).png


Small tips:在对数据进行统计分析时,如果研究者只考虑平均值作为中心趋势的度量,那么数据集的中心可能会被异常值所扭曲,这与中位数或众数不同,比如像“某研究团队的张三和李四月薪3K,王五月薪100W”,那么这个研究团队的平均月薪为33万一样。


同样道理,虽然极差(全距)对极值很敏感,但也应考虑标准差和方差,以获得比较准确的差异(离散)度量。


双元描述性统计和多元描述性统计在收集了不止一个变量的数据时,可以使用双元或多元描述性统计来探索它们之间是否有关系。


在双变量分析中,同时研究两个变量的频率和变异性,看它们是否同时变化。在进行进一步的统计测试之前,还可以比较这两个变量的中心趋势。多元分析与二元分析相同,但有两个以上的变量。


双元描述性统计描述的一个重要工具就是列联表(Contingency Table)。列联表又称为条件次数表、情形分析表,它对一组数据用两种不同方法进行分析的行和列组成。在列联表中,每个单元格表示两个变量的交集。通常,自变量(如性别)沿纵轴出现,因变量沿横轴出现(如活动)。阅读表格时,可以观察到自变量和因变量是如何相互关联的。例如,过去一年图书馆的参观次数根据性别来进行统计。


Number of visits to the library
in the past year

Group0–45–89–1213–1617+
Men3866348220
Women3648436322


Small tips:当原始数据的数值转换成百分比时,SCI论文读者理解列联表会更容易。百分比使得每一行看起来好像都有相同的100个被观察者或被调查者,从而使每一行与另一行具有可比性。在创建基于百分比的列联表时,在末尾为每个变量添加一列为样本总量N。


Visits to the library in the past year 
(Percentages)

Group0–45–89–1213–1617+N
Men18%37%20%13%12%240
Women15%20%18%35%11%235


从上面这张表中可以更清楚地看出,相近比例的喜欢泡图书馆的男性和女性每年都要去图书馆17次以上。此外,男性去图书馆的次数通常在5到8次之间,而女性则在13到16次之间。


对于双元及多元数据统计描述的一个重要工具是散点图(Scatter plots)。散点图是用来表达两个或三个变量之间关系的图表。这是一种关系强度的视觉表现。


在散点图中,沿x轴绘制一个变量,沿y轴绘制另一个变量。每个数据点由图表中的一个点表示。


下面介绍一个散点图示例。以例1中参观图书馆和电影院的描述统计,需要在调查数据中了解那些经常去图书馆的人是否倾向于少去电影院看电影。散点图可以设计为,沿x轴是电影院观看电影次数,沿y轴是访问图书馆读书的次数。


0 (6).png


从散点图可以看出,随着电影院里看电影的数量减少,图书馆的访问量也随之增加。基于对可能的线性关系的可视化直观评估,研究者可进一步对数据进行的相关性分析和回归测试。


用好统计学方法,是撰写SCI论文的利器!最迟写成于万历年间的《增广贤文》 有言:“画龙画虎难画骨...”,这句话凸现了透过现象认识本质是很难的,那么SCI论文中的描述性统计部分常常可以让我们降低一下这种难度。

 

作者:晨星


没有账号?