广告

数据泄露如何损害人工智能数学推理能力

对人工智能数学能力的测试提出质疑,表明我们可能永远无法知道智能机器计算机能变得多强大。

Google NewsGoogle News Preferred Source
学分:Phonlamai Photo/Shutterstock

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

早在2019年,一群计算机科学家就进行了一项如今举世闻名、对人工智能研究产生深远影响的实验。当时,机器视觉算法已经能够识别各种各样的物体,并在用于评估其能力的标准测试中取得一些惊人的成果。

广告

但所有这些测试背后都有一个方法问题。几乎所有的算法都经过了一个标记图像的数据库进行训练,这个数据库被称为ImageNet。该数据库包含数百万张经过精心用人类书写的文本描述的图像,以帮助机器学习。这项工作对于机器视觉的发展至关重要,ImageNet也成为了某种行业标准。

这样,计算机科学家就使用数据集中的一部分图像来训练算法识别草莓、桌子、人脸等。然后,他们使用另一部分图像来测试算法。随着时间的推移,计算机科学家声称他们的算法在识别现实世界中的物体方面越来越出色。

图像识别

但私下里,研究人员开始怀疑这是否真的属实。由于ImageNet数据库越来越有名,另一种解释是,它的图像或与之非常相似的图像已经泄露到现实世界中。因此,经过它们训练的AI系统只是在识别它们已经见过的图像。

当时,没有办法进行测试,因为没有高质量的图像数据库尚未用于训练算法。

直到加州大学伯克利分校的一个团队创建了一个新的、经过仔细标记的图像数据集,他们知道算法不可能见过这些图像,一切才得以改变。然后,他们要求算法识别图像中的物体,并发现它们的表现并不像大家声称的那样好。

他们的实验成为了依赖单一数据库测试机器的陷阱的一个著名例子。如果没有对该数据库进行仔细管理,AI系统可能会在某个任务上表现良好,但实际上只是在重复它们已经学到的东西。

这就引出了我们当前一代的AI系统,它们擅长解决用文字写出的某些类型的数学问题。例如,“*詹姆斯每周给两位不同的朋友写3页的信,每周两次。他一年写多少页信?*”。

AI系统能够回答这样的问题,表明它们具有推理能力。事实上,有一个名为GSM8K的特殊数据库,计算机科学家用它来测试AI系统的推理能力。这个问题就出自那里。

GSM8K是一个“由人类问题作者创建的8.5K个高质量、语言多样化的小学数学应用题数据集”。它包含大约7500个用于训练AI系统的问题和1000个用于测试系统的问题。

广告

多年来,AI系统回答这些问题的能力越来越强。这导致各种声称AI系统在解决这些问题所需的推理能力方面越来越强。

但还有另一种可能性。那就是GSM8K已经声名鹊起,以至于测试问题开始泄露到外部。因此,AI系统可能在更广泛的基准训练过程中遇到它们。所以,它们不是通过推理来回答问题,而只是重复它们在训练过程中看到的答案。

广告

“人们越来越担心,一些性能表现实际上反映了数据集的污染,即与基准问题非常相似的数据泄露到了训练数据中,而不是真实的推理能力,”总部位于旧金山的Scale AI公司(一家专注于为AI系统清洗数据的初创公司)的研究员休·张(Hugh Zhang)及其同事说道。

在伯克利研究人员的带动下,Scale AI团队决定通过开发自己的1250个数学测试问题来检验这个想法。他们称之为GSM1k,并仔细确保它与GSM8K测试非常相似,但从未发布过。

他们表示:“我们付出了巨大的努力,确保GSM1k在难度上与GSM8k具有相似的分布,以确保进行‘苹果对苹果’的比较。”“我们确保这两个基准在人类解决率、解决方案步骤数、答案量级等重要指标上都是可比的。”

然后,他们在一系列AI系统上测试了GSM1k问题,以查看它们的表现如何。结果非常有趣。

广告

事实证明,许多AI系统在新数据集上的表现明显不如在原始数据集上。“在GSM1k上评估领先的开源和闭源LLM时,我们观察到准确率下降高达13%。”张及其同事说。

该团队指出了一些似乎特别容易受到影响的系统,例如法国AI系统Mistral和微软的小型AI系统Phi。

推理响应

然而,其他系统表现几乎没有或完全没有下降。这些系统包括ChatGPT、Claude和Gemini。张及其同事表示,这些模型可能在数学推理方面更强,或者其模型构建者在数据污染方面更加谨慎。

该团队还要求这些系统生成GSM8K的问题。事实证明,它们生成问题的能力与其回答GSM1k和GSM8k问题的能力差异密切相关。张及其同事表示,这强烈表明模型已经部分记住了GSM8k的例子。

广告

然而,并非全是坏消息。“他们总结道:“许多模型,即使是过度拟合最严重的模型系列,也显示出可泛化的数学推理的有力迹象。”

这是一项有趣的工作,它揭示了用于测试AI系统能力的基准测试过程的局限性。尽管这些测试表明近年来AI系统的推理能力取得了重大进展,但在解释进展时仍需谨慎。

广告

更大的问题是如何准确地对更高级的AI系统进行基准测试,尤其是在数据集难以整理的情况下,并且它们的性能变得超乎常人。这引发了一种非常现实的可能性,即在未来的某个时候,我们将永远不知道这些机器的真实能力。


参考:对大型语言模型在小学算术表现的仔细审查:arxiv.org/abs/2405.00332

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章