人工智能语言模型是否已实现心智理论？

与最新的聊天机器人交流时，很容易觉得它们“理解”你。它们巧妙的回答常常给人一种不可否认的印象，仿佛它们不仅知道你说的话，还知道你的想法——你的话语暗示了你的精神状态。

心智理论

在心理学家中，有一个术语叫做“心智理论”。这是社交智能的一个标志，它使我们能够根据他人的言谈举止以及我们对人性的了解，来推断他人的内心现实。这是告诉你丁立人本月赢得世界象棋冠军后感到的是兴奋而不是忧郁的直觉逻辑。这也是道德判断和自我意识的重要组成部分。

今年二月，斯坦福大学心理学家 Michal Kosinski 提出了一个“惊人的主张”，即心智理论已自发地出现在最近几代大型语言模型（如 ChatGPT）中，这些神经网络通过海量文本训练，能够生成令人信服的人类句子。

哈佛大学认知科学家 Tomer Ullman 说：“如果这是真的，那将是一个分水岭时刻。” 但在接下来的几个月里，Ullman 和其他人工智能研究人员表示，他们已经用一个孩子就能回答的问题难倒了这些语言模型，揭示了它们的理解能力是多么迅速地瓦解。

人工智能与心智理论

Kosinski 对各种语言模型进行了一系列旨在衡量一个人将错误信念归因于他人的心理测试。1985 年首次用于测量自闭症儿童心智能力的“Sally-Anne 情景”是一个经典例子：一个名叫 Sally 的女孩把一颗弹珠藏在一个篮子里，然后离开了房间；另一个名叫 Anne 的女孩随后把弹珠移到了一个盒子里。Sally 会在哪里找弹珠？

阅读更多：人工智能将帮助设计防飓风建筑吗？

任何没有发育障碍的人都知道，Sally 对现实的认知现在是错误的——她期望在藏弹珠的地方找到它，而不是在我们全知的观察者知道的地方。

另一方面，机器在这些任务上的表现历来不佳。但 Kosinski 发现，在面对 40 个独特的 Sally-Anne 情景时，GPT-3.5（驱动 ChatGPT 的模型）有十分之九的情况下能准确预测错误信念，与 7 岁儿童相当。3 月份发布的 GPT-4 表现得更好。

这似乎是语言模型已具备心智理论的有力证据，考虑到它们越来越融入我们的生活，这是一个令人兴奋的前景。Kosinski 写道：“归因他人精神状态的能力将大大提高人工智能与人类（以及彼此）互动和交流的能力。”

为什么人工智能语言模型容易被欺骗

然而，自从他宣布以来，类似的测试得出了不那么戏剧性的结果。Ullman 向语言模型展示了一系列相同的任务，这次增加了一些微小的调整或“扰动”。这种微小的改动不应该让真正拥有心智理论的实体感到困惑，但它们却让即使是最强大的 AI 模型也感到迷失。

想象一个人，比如 Claire，看着一个袋子。她看不到里面，虽然里面装满了爆米花，但标签上写着“巧克力”。标签并没有起到作用——Claire 看不懂。对她来说，这可能就是一个麻袋。尽管如此，GPT-3.5 还是断言她“很高兴找到这个袋子。她喜欢吃巧克力。”

卡内基梅隆大学的计算机科学家 Maarten Sap 向语言模型询问了 1300 多个关于故事角色精神状态的问题。即使是 GPT-4，在面对混乱但可理解的细节时，准确率也只有 60%。

Sap 说：“它们真的很容易被愚弄，使用所有的上下文，而不区分哪些部分是相关的。”

在他看来，越大不一定越好。扩大语言模型的训练数据可以产生令人瞩目的行为，但他怀疑这会赋予它们心智理论；数据的性质至关重要。这项挑战可能需要从标准的网络抓取方法（“一切都是神经汤”）转向一种精心设计的文本方法——其中包含大量角色之间的对话和互动。

人类天生就是读心者吗？

关于机器心智理论的问题反映了关于心智理论本身的更广泛的不确定性。心理学家们对于儿童通过日益熟悉语言（例如“知道”和“相信”等词语会提示他们注意他人的精神状态）获得的程度，还是通过非语言经验和内在的进化机制获得的程度，存在分歧。

阅读更多：我们如何知道人工智能何时具有感知能力？

Sap 指出，语言模型显然更为有限。“它们没有世界表征，它们没有具身性。”“这些模型只是接受我们给它们的东西，并利用虚假的相关性来生成输出。”如果它们设法获得了心智理论，那只能是通过语言 alone。

在 Kosinski 看来，它们正是这样做的，但他提出了第二种可能性：模型只是利用我们意识不到的微妙的语言模式来“表现”得好像它们理解。即使这些模型能够通过心智理论基准测试——先不考虑一些实验表明它们至少目前来说实际上相差甚远——谁能说我们自己不是这样运作的，没有真正运用心智理论呢？

那样的话，我们可能仅仅是生物语言处理器，与同胞的内心世界缺乏有意义的联系。但 Ullman 看到了一种摆脱这种困境的方法：当我们推断某人脑中发生的事情时，我们不仅考虑语言输入，还考虑我们根深蒂固的关于这些大脑如何工作的知识。

加州大学圣迭戈分校认知科学家团队在去年 10 月发布的“一项错误信念实验报告”中提出了类似的观点。他们写道，语言模型 GPT-3（当时是顶尖水平）远远落后于现场参与者，“尽管它接触到的语言比人类一生中接触到的都要多。”换句话说，心智理论可能源于多种来源。

人工智能的真正能力是什么？

更宏观地看，心智理论只是关于人工智能能力激烈辩论的一个方面。去年，“一项调查”显示，研究人员在“语言模型是否能以某种非微不足道的方式理解语言”的问题上几乎呈对半分裂状态——大约 500 名研究人员中，51% 的人认为可以，49% 的人认为不可以。

假设怀疑论者是正确的，那么与 ChatGPT 面对面时那种令人不安的感觉只是天真的拟人化。如果真是这样，那么认为一些信息灵通的专家会落入算法的诡计似乎是难以置信的。然而，要欺骗那些有在烤面包中寻找人脸的倾向的生物，并不需要太高的技巧。

考虑一下 20 世纪 60 年代由麻省理工学院计算机科学家 Joseph Weizenbaum 创建的早期聊天机器人ELIZA。它被设计成模拟罗杰斯式心理治疗，除了重复病人的话语和提供一些发人深省的提示外，几乎没有做什么。与当今语言模型光滑的回应相比，那个程序看起来像一只愚笨的鹦鹉，但许多人仍然坚信它真正理解他们。

正如 Ullman 所说：“对于看起来像代理的东西，我们倾向于归因心智理论。” 到目前为止，他还没有看到任何东西能说服他，认为当前几代 GPT 是真实的。但随着人工智能界继续探索越来越强大模型的晦涩工作原理，他仍然感到乐观。“我赞同‘思想在某种程度上类似于计算机’的基本观点，”他说，“而且，如果我们不是死于气候战争，我们最终就能复制它。”