广告

人工智能系统为何无法通过人类测试

一些社会科学家希望在测试人类偏好的实验中用人工智能系统取代人类。这可能不是一个好主意。

Google NewsGoogle News Preferred Source
图片来源:Stokkete/Shutterstock

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

经济学家有一个揭示个人推理深度的游戏。该游戏被称为 11-20 金钱请求游戏,在两名玩家之间进行,每名玩家要求 11 到 20 谢克尔之间的金额,并且知道他们都会收到他们所要求的金额。

广告

但有一个转折:如果一个玩家要求的金额比另一个玩家少一谢克尔,那么该玩家将获得 20 谢克尔的奖金。这测试了每个玩家思考对手可能做什么的能力——这是策略推理的经典挑战。

11-20 游戏是博弈论中水平-k 推理的一个例子,其中每个玩家试图预测另一个玩家的思维过程并相应地调整自己的选择。例如,一个使用水平-1 推理的玩家可能会选择 19 谢克尔,假设对方会选择 20。但一个水平-2 的思考者可能会要求 18,预测对手会选择 19。这种思考层层叠加,创造了一种复杂的策略和猜测游戏。

人类替代品?

近年来,多位研究人员提出,像 ChatGPT 和 Claude 这样的大型语言模型 (LLM) 可以在各种任务中像人类一样行事。这引发了 LLM 在产品和广告投放于人类市场之前测试其意见等任务中取代人类的可能性,这种方法将比当前方法便宜得多。

但这引发了一个重要问题:LLM 的行为是否真的与人类相似?现在,得益于波士顿大学 Yuan Gao 及其同事的工作,我们得到了答案。他们使用了一系列先进的 LLM 来玩 11-20 游戏。他们发现,这些人工智能系统都没有产生与人类玩家相似的结果,并表示在使用 LLM 作为人类替代品时需要极其谨慎。

团队的方法很简单。他们向 LLM 解释了游戏规则,包括 ChatGPT、Claude 和 Llama 的几个模型。他们要求每个模型选择一个数字,然后解释其推理过程。他们为每个 LLM 重复了实验一千次。

但 Gao 及其同事对结果并不满意。人类玩家通常使用复杂的策略,反映更深层次的推理。例如,一个常见的人类选择可能是 17,这反映了他们假设对手会选择更高的值,如 18 或 19。但 LLM 却表现出截然不同的模式:许多模型简单地选择了 20 或 19,反映了基本的 0 级或 1 级推理。

研究人员还尝试通过诸如编写更合适的提示和微调模型等技术来提高 LLM 的性能。GPT-4 因此显示出更像人类的响应,但其他模型都未能做到。

LLM 的行为也高度不一致,取决于不相关的因素,例如它们被提示的语言。

Gao 及其同事表示,LLM 无法复制人类行为的原因是它们不像人类那样进行推理。人类行为是复杂的,受情感、偏见以及对激励的不同解读驱动,例如击败对手的愿望。LLM 通过语言模式来预测句子中的下一个词来给出答案,这个过程与人类的思维方式根本不同。

广告

令人警醒的结果

这对社会科学家来说可能是一个令人警醒的结果,因为他们觉得 LLM 可以取代人类进行某些类型的实验的想法很有诱惑力。

但 Gao 及其同事表示:“期望通过对 LLM 的实验来获得对人类行为模式的见解,就像心理学家采访一只鹦鹉来理解其人类主人的精神状态一样。”鹦鹉可能会使用与主人相似的词语和短语,但显然缺乏洞察力。

广告

“这些 LLM 在外观上像人类,但在行为上却根本不同且不可预测,”他们说。

社会科学家们,你们被警告了!


参考文献:在使用 LLM 作为人类替代品时务必谨慎:Scylla Ex Machina : arxiv.org/abs/2410.19599

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章