科研星球

拉响识别论文工厂造假论文的警报!

编者按:

一种新的软件工具正在引起出版商的兴趣,它可以分析学术论文的标题和摘要,并检测出与造假文章中相似的文本。
这款名为“Papermill Alarm”的工具是由伦敦学术数据服务公司Clear Skies的Adam Day开发的。Day说,他通过系统运行了引文数据库PubMed中列出的所有标题,发现目前列出的论文中有1%的文本与论文工厂生产的文章非常相似, “Papermill Alarm”并没有明确指出具体哪一篇论文是否是伪造,但指出了那些值得进一步调查的论文。
Day说,他的分析并不是为了估计PubMed条目中论文工厂的规模,因为它只能识别出与已知论文工厂相似的论文。他说,可能会有更多的论文工厂存在,合法的论文也可能因为使用类似的措辞而被标记。“这就像一张渔网而不是鱼竿。”
柏林自由大学研究论文工厂的经济学家Anna Abalkina说,可以检测出潜在伪造论文的自动化检查将使所有科学团体受益。
检测可疑的投稿
许多出版商已经使用软件和其他方法来帮助检测欺诈活动和发现垃圾论文。例如,一些手稿处理系统可以检测并标记是否许多论文来自同一台计算机,这表明一个人或一个组织可能在大量地进行研究。但Day表示,“Papermill Alarm”分析文本的方法是新的。包括SAGE在内的六家出版商表示有兴趣使用“Papermill Alarm”来筛选提交的稿件。
该工具使用深度学习算法来比较手稿标题和摘要中使用的语言与已知来自论文工厂的文章中使用的语言。这一比较是基于包括Elisabeth Bik和David Bimler,化名Smut Clyde在内的研究诚信侦探编制的论文工厂文章清单。该工具使用一个红绿灯系统,给与已知论文工厂文章有许多相似之处的论文分配红色标志,给有一些相似之处的论文分配橙色标志,给没有相似之处分配绿色标志。
到目前为止,很少有人估计论文工厂生产的造假论文的疯狂程度。出版伦理委员会COPE在2022年6月份的一份报告显示,提交给期刊的论文中有2%来自论文工厂,并表示这一问题“可能会淹没大量期刊的编辑过程”。
Bik说,在PubMed上列出的论文工厂论文的真实数量可能比1%更高,但她指出,(这些论文)对科学的整体影响可能很低,因为这些文章大多数都没有高引用或影响力。“但它损害了科学的声誉和我们对研究论文的信任,”她说。

参考文献:

https://www.nature.com/articles/d41586-022-02997-x


没有账号?