科学语言在不断变化。在过去的十年里,各种各样的词语和短语已经从默默无闻走向科学的常用语。其中包括寨卡病毒、埃博拉、ChatGPT 等,这些词语反映了科学研究的起伏以及科学和社会中更广泛的事件和时尚。
这些变化体现在科学家们不断产生的论文、评论和文章中。事实上,各种研究人员已经尝试通过他们产生的语言变化来描绘科学的演变。
这引发了一个关于人工智能对科学影响的有趣问题。自 2022 年 11 月 ChatGPT 公开发布以来,科学家们能够使用大型语言模型来修改、编辑,有时甚至从头开始撰写他们撰写的全部科学论文。但他们实际使用这种 AI 辅助的程度尚不清楚。
历史性的变革
来自德国图宾根赫蒂脑健康人工智能研究所的 Dmitry Kobak 及其同事发现了一种方法,可以衡量自 2022 年以来人工智能系统对科学文献的影响,并将其与科学界其他重大事件的影响进行比较。他们表示,大型语言模型正在以前所未有的规模改变科学话语。
Kobak 和同事首先下载了自 2010 年以来在 PubMed 生物医学数据库上发表的 1400 万篇以上科学论文的摘要。然后,他们清理了数据库中与作者写作无关的常用词语和短语,例如“版权”或“如何引用本文”。接着,他们计算了每年每个三个字母以上的单词出现的频率。最后,他们查看了 800 个最受欢迎的单词,以及它们每年的频率变化。
结果立即揭示了一些明显的科学趋势。例如,“埃博拉”一词的频率在 2015 年达到顶峰,“寨卡”则在 2017 年达到顶峰。2020 年发生的最大变化之一是,在新冠疫情爆发期间,诸如“封锁”、“大流行”、“呼吸道”和“瑞德西韦”等词的使用大幅增加,此次疫情被广泛认为是历史上对科学出版影响最大的事件之一。
但令研究人员惊讶的是,2024 年发生了更大的变化,诸如“深入”、“关键”、“重要”和“潜在”等词的使用增加。奇怪的是,这些词与论文的科学内容无关,而是与写作风格有关。
事实上,研究人员认为,这些正是大型语言模型偏爱的词语。Kobak 及其同事表示:“2024 年过剩风格词语的空前增加使我们可以将其用作 ChatGPT 使用的标记。”
这种变化是深刻的。“在 ChatGPT 可用之后,数百个词语的频率突然增加,”他们说。
英语辅助
Kobak 及其同事为受大型语言模型影响的论文数量设定了一个下限。数据显示,2024 年 PubMed 上的论文至少有 10% 受到了这种影响。研究人员总结道:“考虑到 PubMed 目前每年收录约 150 万篇论文,这意味着大型语言模型每年协助撰写至少 15 万篇论文。”
该团队观察到,在英语非母语国家的论文中,AI 辅助更为普遍。这可能表明非英语母语者正在使用 AI 辅助来争取科学写作的平等机会。或者,这可能意味着英语母语者同样大量使用 AI 辅助,但他们更擅长在论文发表前消除其影响。无论哪种情况,大型语言模型的使用似乎都很普遍。
这项有趣的工作难得地揭示了 AI 不仅在改变科学家写作的方式,还在改变科学研究本身。“大型语言模型使用对科学写作的影响确实是前所未有的,甚至超越了新冠疫情诱导的剧烈词汇变化,”Kobak 及其同事表示。
当然,我们需要更清楚地理解和承认这些趋势,以便科学界能够为大型语言模型的使用设定界限,以最大程度地造福科学家、科学出版商以及科学旨在惠及的更广泛社会。
这项工作是朝着这个方向迈出的重要一步。尽管如此,大型语言模型使用率的快速变化表明,科学家和出版商需要迅速采取行动,才有机会跟上步伐。如果说科学出版有任何借鉴意义的话,那么其他出版领域也可能面临类似的挑战。
参考:通过过剩词汇深入探讨学术写作中的 ChatGPT 使用:《arxiv.org/abs/2406.07016》














