“折磨人的短语”泄露了捏造的研究论文

2021-08-09 01:51:25

2021 年 4 月,期刊文章中的一系列奇怪短语引起了一群计算机科学家的兴趣。由法国图卢兹大学的纪尧姆·卡巴纳克 (Guillaume Cabanac) 领导的小组无法理解为什么研究人员会使用“假冒意识”、“深刻的神经组织”和“巨大信息”等术语来代替更广泛认可的术语“人工智能” '、'深度神经网络'和'大数据'。进一步调查显示,这些奇怪的术语——他们称之为“折磨词组”——可能是自动翻译或试图掩饰抄袭的软件的结果。它们似乎在计算机科学论文中很普遍。研究完整性侦探说,Cabanac 和他的同事们发现了一种新型的伪造研究论文,他们的工作于 7 月 12 日发布在 arXiv 上的预印本中,可能只是涉及文献的冰山一角做作的。为了了解有多少论文受到影响,研究人员在引文数据库 Dimensions 中索引的期刊文章中搜索了 30 个受折磨的短语。他们发现了 860 多篇至少包含其中一个短语的出版物,其中 500 篇发表在单一期刊上:微处理器和微系统。 “它损害了科学。你不能相信这些论文,所以我们需要找到它们并撤回它们,”Cabanac 说。 Cabanac 和同事怀疑这些被折磨的短语是自动翻译或重写现有文本的软件的结果,他们通过一种工具运行了一系列来自微处理器和微系统以及其他期刊的摘要,该工具可以识别文本是否是由人工智能工具生成的GPT。在该工具标记的微处理器和微系统论文中,手动检查发现其中一些存在“严重缺陷”,例如无意义的文本,以及抄袭的文本和图像。为了深入挖掘,该小组下载了 2018 年至 2021 年间发表在 Microprocessors and Microsystems 上的所有论文,他们选择了这个时间范围,因为 GPT 的升级版本已于 2019 年发布。分析显示,2021 年 2 月之后发表的论文的接受时间为 5平均而言,比在该日期之前发表的要短几倍。这些论文中有很大一部分来自中国的作者。一部分论文具有相同的提交、修订和接受日期,其中大部分出现在该期刊的特刊中。作者说,这很可疑。与由主编监督的标准问题不同,特刊通常由客座编辑提出和监督,并专注于特定的研究领域。

Microprocessors and Microsystems 并不是唯一受影响的标题——研究人员还在其他 35 种期刊发表的论文中发现了被折磨的短语的证据。他们写道:“初步调查显示,主要数据库中收录了数千篇带有扭曲短语的论文,”并补充说“其他与其他科学领域概念相关的扭曲短语尚未曝光”。大约在 Cabanac 和他的同事们第一次注意到他们不知道的折磨词时,Microprocessors and Microsystems 的编辑开始担心同行评审的完整性和严谨性,这些论文发表在该杂志的一些特刊上。该杂志的出版商爱思唯尔发起了一项调查。这仍在进行中,但在 7 月中旬,出版商对该杂志的六个特刊中出现的 400 多篇论文表示了关注。表达关切的是,受影响的《微处理器和微系统》专刊中的论文正在一一“独立重新评估”,一旦调查结束,该杂志将进一步更新其状态。出版商补充说,该期刊的“编辑系统配置错误”意味着主编和指定处理论文的编辑都没有收到他们应有的批准。 “此配置错误是由于系统迁移而导致的临时问题,一经发现便予以纠正,”通知中写道。爱思唯尔的一位发言人在一份声明中告诉《自然》,微处理器和微系统公司的调查发现,作者可能使用逆向翻译软件来掩饰抄袭行为,这可能是这些措辞的来源。调查还显示,49 篇被卡巴纳克及其同事标记为可疑并发表在该杂志标准期的论文最初是提交给其特刊并被客座编辑接受的,“但随后在常规问题上发表,在作者'请求”,声明说。它补充说,这些论文已经是爱思唯尔调查的一部分。

加利福尼亚州的研究完整性分析师 Elisabeth Bik 以在论文中发现重复图像的技能而闻名,她说 Cabanac 的研究结果“令人震惊”。 “这是一种非常新颖且令人不安的人造纸,”她补充道。澳大利亚悉尼大学的分子肿瘤学研究员詹妮弗·伯恩 (Jennifer Byrne) 也致力于发现伪造的论文,她说这可能只是冰山一角,因为研究人员只深入研究了一家出版商的一份期刊。 “这些论文也被发现,因为它们的质量很差,但文献中可能有更多可信的 AI 生成的论文更难检测,”她补充道。电子邮件地址 是的!注册我以接收每日自然简报电子邮件。我同意将根据 Nature 和 Springer Nature Limited 隐私政策处理我的信息。