科研星球

文献综述的难点在哪里

最近和一位朋友经常讨论文献综述的问题。看到朋友圈、公众号也经常推荐些如何进行文献综述的文章。但是我感觉这些文章没说透文献综述为什么难。我以前也说过几次文献综述,重复的内容不说了,这里说我认为是新的内容吧。


总体上,我觉得文献综述难在三点:①在研究的不同阶段,读文献的目的是不同的,如何搜索、如何选择文献、如何阅读、如何做笔记等的策略也是不同的,需要我们不断换挡;②综合(synthesizing)文献的信息也比较困难;③最困难的是运用文献讲个动人的故事。


我们先说第一个难点。


640.png

表格中列出了5个研究阶段,我们在不同的阶段使用文献的目的是不同的。因此,在文献搜索、文献选择、文献阅读、文献笔记等方面的策略是不一样的。举个例子,如果我们正处于选题阶段,那么进行文献搜索很可能是漫无目的,仅仅用猜测的一两个关键词在各种数据库里搜索。也许此时一天你要读几百篇文章(哈哈,如果只读标题也算读文章的话),基本上也没有做文献笔记的需要(可能需要做些搜索的记录);假如我们到了研究设计阶段,那么我们的问题是比较清晰的,猜想也大体上有了,我们可能就需要读很少一部分方法的文献,帮助我们回答:这么做行不行?有没有漏洞?耗费多不多?划算不划算?如果那样做逻辑上有没有问题?能不能达到目的?有没有更合理的方法?


如果这些阶段能够截然分开还好,问题复杂在这些阶段是交叉重叠的、相互纠缠的,这就搞得我们在读论文的时候大脑也处于纠结状态,是浅读还是深读?记不记笔记?是否要把文献下载到Endnote里面?是否要打印出来看?怎么我想的这篇论文都做过了?相关的问题都有啥?怎么这么多人都做了这方面的问题?有啥没做过的?这个问题重不重要啊?要是我做,有可能发表吗?我能不能搞定?


但是这个困难随着研究的推进,会越来越小。大家仅仅是在开始的时候经历这么一个混乱的阶段。如果“运气好”,导师把问题、方法都说得很清楚了,你可能连这些困难都不会经历。但是,我建议最好还是经历一下。


接着我们讲第二个难点。关于如何综合,我在推文“如何综合(synthesize)文献中的信息”中已经具体讲过了,大家可以看一下。这里再重点强调一下文献堆砌和文献综合的区分。有朋友说,在写文献综述时总是下意识地写“作者X用什么方法解决了什么问题,作者Y认为……”。这就是文献堆砌的特征。综合是要发现文献间的关联的。我们说过在矩阵中是沿着列从上往下走(也有可能沿着列跳着走)。

640 (1).png

在叙述的时候主角是下图中的信息点,而不是作者。叙述要围绕着信息点1、3、6、8(概念)进行,而不是围绕着论文1、2、3(作者)进行。


每个信息点本质上都是一个问题,每列的单元格就是各个论文对这个问题的回答。对相同问题的各个回答之间可以进行比较(寻找相同点和不同点)。针对相同点,我们就可以进行归类,还可进行趋势分析,或者寻找其它类型的模式。针对不同点,我们可以追问原因,提出我们的问题,这个问题就变成一个新的信息点(可参考刘军强教授总结的提问句型:为什么“有的……有的……”)。如果追问的是,不同点是如何在过程上一步步生成的,通常就会产生一个因果机制的信息点;如果追问的是变量间的关系,通常会产生一个因果效应的信息点。

640 (2).png

除了对文章作(问题,回答)序列的抽象,我们还可以从概念和命题的角度来看待论文。倘如此,那么信息点就可以是,概念A如何定义,有没有A的例子,概念B如何定义,有没有B的例子,……;两概念命题:A和B是什么关系,B和C是什么关系,A和C是什么关系,……;三概念命题:A,B和C之间是什么关系,……。对上述命题为何成立的追问,又产生了新的信息点。


我们还可以从论证理论的角度来看待一篇论文。那么,信息点就可以是:观点是什么,理由是什么,证据是什么,保证是什么,反驳与回应是什么。


我们再来看文献堆砌的示意图。


640 (3).png

文献堆砌本质上是按行走,走完一行再走下一行。这样的话,我们根本就看不到文献之间的关联。按行走的时候,是不是最容易写:作者X认为……;作者Y认为……?


但是问题没有这么简单,有一种隐蔽的文献堆砌方式。说它隐蔽是因为实质上是文献堆砌,但是看上去又像综合。


640 (4).png


如上图所示,叙述的时候,虽然给了个帽子(信息点4),这个帽子说出了论文1、2、3、4之间的共同点,但是接着就进行了堆砌:论文1说了啥;论文2说了啥;论文3说了啥;论文4说了啥。举一个稍微具体一点的例子吧。


640 (5).png


围绕这个表格,一位同学写文献综述:


现有的有关研究方法书籍推荐算法的研究都建立在一定的假设基础上(戴个帽子,意思是把论文1、2、3、4分为一组)。论文3(作者3)和论文4(作者4)提出的L3和L4算法建立在假设1、2、3上;论文2(作者2)提出的L2算法建立在假设1和假设2上;论文1(作者1)提出的L1算法建立在假设1上。


上述文字虽然看似进行了文献综合,也有不少学者这么写。但是本质上仍然抹不掉文献堆砌的印记。那么文献综合的写法是怎样的呢?


640 (7).png


我们看一下下面两种都可以:


现有的有关研究方法书籍推荐算法的研究都建立在一定的假设基础上(戴个帽子)。论文3(作者3)和论文4(作者4)提出的L3和L4算法建立在假设1、2、3上;论文2(作者2)放松了前两位学者的假设3,仅在假设1和假设2的基础上提出L2算法;论文1(作者1)在论文2(作者2)的基础上又放松了一个假设,仅在假设1的基础上提出了L1算法。


现有的有关研究方法书籍推荐算法的研究都建立在一定的假设基础上(戴个帽子)。建立在假设1、2、3上的典型算法有L3和L4(参考文献);L2算法则放松了其中一个假设,仅仅建立在假设1和假设2的基础上(参考文献);L1算法则在L2算法的基础上又放松了一个假设,仅建立在假设1的基础上(参考文献)。


怎么看上去第一种写法跟前面标为“文献堆砌”的写法一样啊,都是以作者为中心的方式写的呀。两种方式的本质不同就体现在两个表格上:文献综合的本质是要让不同信息点(列)之间展开对话;文献堆砌的本质是没有对话。文献堆砌一般只有在举例子的情况下才使用,其他情况,尽量少用。


我们再说最后一个难点:讲故事。


如果仅仅是根据信息点在文献中找答案,每位同学都会,文献综述就不会那么难了。进行文献综述最大的困难在于寻找论文间的关联,并以这些关联为素材讲故事。而且故事的结局我们是知道的:找到一个别人没做过的、有意义的、我们能搞定的研究问题(详见有关科研三角模型的介绍)。


但是这个结局仅仅是框架性的结局,就像电影剧本中正义战胜邪恶的结局一样,需要我们在这个框架里填充具体内容。例如,蜘蛛侠打败了怪物,拯救了世界。在这个意义上说,每位写文献综述的同学都是一位编剧,需要利用文献编出一个能够让同行信服的故事。


说得有点抽象,我们还举刚才的例子吧。


640 (8).png


图上虚线框中就是我们设想的一个故事大纲。故事的素材是我们从文献中获得的三个信息点。前面已经说过,怕忘了,再明确一下:


信息点1:建立在假设1、假设2和假设3基础上的推荐研究方法书籍的算法有哪些?论文3回答说有算法L3;论文4回答说有算法L4。


信息点2:建立在假设1和假设2基础上的推荐研究方法书籍的算法有哪些?论文2回答说有算法L2。


信息点3:只建立在假设1基础上的推荐研究方法书籍的算法有哪些?论文1回答说有算法L1。


利用这三个主要的信息点,我们就可以猜想,我们能否继续放松假设1来设计一个新的算法?当然我们刚才说的3个信息点仅仅是关键的,还有一些比较重要的,也不能缺少,例如,L1,L2,(L3,L4),在推荐结果评价指标上的表现相当,耗费资源相当等。


这里,我们就是在利用论文1、2、3、4之间的关联来讲故事的。论文3和4的关联是它们的相同之处:建立在假设1、2、3上;论文3、4和论文2之间的关联:2比3、4少了一个假设;论文1和2之间的关联:前者比后者又少了一个假设。


那么你可能会问,我怎么知道讲什么故事呢?故事大纲怎么编啊?哈哈,每一位编剧都会这么问。有学者用图示的方式给我们提供了一些故事大纲:


640 (6).png

图片来源:(Lebrun, 2007) p. 164


我只知道这里是最难的地方,而且是我所读过的研究方法、文献综述类专著、论文、推文都没有重点讨论的内容,Lebrun可能是触碰这个话题最多的学者,但是仍然着墨不多。我暂时也没有一个很好的回答。是否可以从以下三个方面着手:①多积累些故事大纲;②论文阅读量不能小了;③在读论文的过程中,不断地编自己的研究故事,多个版本的故事,然后不断地放弃一些故事。


可能有人还会问:要讲好一个故事,最核心的信息点要多少啊?最核心的文献要几篇啊?这个问题没有确切的答案。不同的学科、不同的问题可能要求的数量不太一样。但是也有一些学者根据他们的经验界定了一下大致的数量。例如(Huff, 1999)p. 46说大体上只需要3~4篇最相关的文献即可;(Murray, 2011) p.126说2~3篇即可,最多不超过5~6篇文献。不仅仅是期刊论文,即使学位论文可能也是这样。在一个网站上看到下面这张图:


640 (9).png

接着你可能要问了,既然5篇左右的核心参考文献就行了,为什么一篇期刊论文动辄就几十篇参考文献,学位论文要上百篇呢?这里面有很多故事,我也解释不清楚,只给一个类比说一下道理吧。大家都看过电影、电视剧,里面的主角有多少呢?一般情况下不会超过5个吧。出现在演员列表里的人名有多少呢?少则十几位,多则几十位。


与上述问题紧密相关的另一个问题是,文献综述要写多长呢?以我们刚才讨论的故事为例,似乎一两段话就能说清楚了。再往下,就感觉没话了,或者只能说些相关性不大的话,或者说些车轱辘话。如果从学理上说,文献综述要介绍多少,要看我们和我们的读者之间有多少信息差(Knowledge gap 请参考(Lebrun, 2007)第五章),也就是说我需要呈现多少背景信息,这位读者才能看明白我们之后展开的推理。按照这个道理,同样是刚才我们举的不断放松假设的那个例子,如果你和导师讨论,最多只需要那4篇论文即可,文献综述可能只需要两段话;如果你和一个大同行讨论,你可能要说更多的话。文献综述要写多长,学理之外的考虑也是有的。举个相关的例子说吧,我听说过,也见过,不少人为了做生意贷款买豪车,最后不能按时还贷,车被银行收回。写文献综述也有类似的情况,有时候我们写些看似相关实际上用处不大的文字,主要是为了撑撑门面,或者炫耀一下。问题的关键是,这种炫耀是我们预期读者想要看到的,如果不炫耀,读者就可能认为我们没有。这样的话,文献综述就不可能写得很短。当然,不管我们如何炫耀,也不用事事都从一万年前开始说。我原来建议过,从离你研究问题最近的领域常识开始说。





☉文章 | 姜红丙

参考文献

[1]Huff, A. S. (1999). Writing for Scholarly Publication. London: SAGE Publications.

[2]Lebrun, J.-L. (2007). Scientific writing : a reader and writer's guide. Hackensack, NJ ; London: World Scientific.

[3]Murray, R. (2011). How to write a thesis (3rd ed. ed.). Maidenhead: Open University Press.


没有账号?