早在 1950 年,艾伦·图灵就提出了一种简洁而又极具挑战性的方法来判断机器是否能够“思考”。这种被称为图灵测试的衡量机器智能的标准,通过文本交流,让机器和人类进行对话竞争,挑战人类评审员区分人工智能和真正智能的能力。
尽管进行了无数次尝试,但没有任何人工智能系统能令人信服地通过这项测试。直到现在。
加州大学圣地亚哥分校的 Cameron Jones 和 Benjamin Bergen 首次收集到了证据,表明 OpenAI 的 GPT-4.5,一款先进的大型语言模型(LLM),已经成功通过了图灵测试。不仅如此,在特定条件下,GPT-4.5 在说服参与者相信其人性方面,甚至优于人类对手。
这项研究对社会、伦理以及人类对智能本身的理解都具有重大意义。
人类 vs 机器
图灵测试会让一个审问者与两个对话伙伴——一个人类和一个机器——进行文本交流。审问者的任务很简单:判断哪个对话伙伴是人类。但尽管计算语言学和机器学习取得了飞速发展,人工智能系统在此看似简单的挑战中一直未能成功。
为了进行测试,Jones 和 Bergen 招募了 284 名来自不同背景的参与者,包括本科生和来自 Prolific 的付费众包工人。Prolific 是一家聘请人类参与人工智能相关实验的科技公司。
研究人员将包括 GPT-4o、LLaMa-3.1-405B 和 GPT-4.5 在内的多款当代人工智能模型与人类进行了对比。有趣的是,GPT-4.5 胜出,但前提是它被指示采用“拟人化形象”。在这些对话中,GPT-4.5 有 73% 的时间被判断为人类:Jones 和 Bergen 表示,这远远超过了审问者选择真正人类参与者的比例,凸显了人工智能在模仿人类对话能力方面取得了显著进步。
研究人员还使用了一个名为 ELIZA 的旧的基于规则的聊天机器人生成文本,该文本很容易被评审员识别为机器。同样,上一代模型 GPT-4o 的表现也远不如 GPT-4.5,在 21% 的情况下被选为人类。“这些结果构成了任何人工智能系统通过标准三方图灵测试的第一个实证证据,”Jones 和 Bergen 表示。
Jones 和 Bergen 将 GPT4.5 的部分成功归功于精心设计的提示词,这些提示词旨在引导模型采用人类觉得易于理解且令人信服的形象——特别是,一个精通网络俚语和文化的内向年轻人的形象。研究人员表示,GPT4.5 能够做到这一点,表明其对语言模式和交互细微之处有着深刻的掌握,而这些之前被认为是人类独有的。
“可以说,大型语言模型之所以如此灵活,而且显然如此善于伪装成人类,就在于它们能够轻松地通过提示词来适应不同的场景,”Jones 和 Bergen 表示。这种适应性并非弱点,反而正是它们新兴智能的体现。
当然,这项工作也引发了一个棘手的问题:图灵测试是否真的在衡量智能,还是仅仅在衡量通过测试的能力。无论如何,GPT-4.5 的成功挑战了“真正的智能必然包含意识或深刻理解”的传统观念。这甚至可能促使我们重新评估用于定义认知能力和智力的标准。
不断演进的智能
这是一个令人印象深刻的结果,具有重大的伦理、经济和社会影响。“拥有如此强大的欺骗和伪装成人类能力的模型,可能会被用于社会工程或传播虚假信息,”研究人员警告说,并指出“伪造人类”在政治、营销和网络安全领域的潜在滥用。
但也有明显的积极方面,尽管存在重要的注意事项。更好的对话代理可以显著增强人机交互,改进自动化服务、虚拟助手、陪伴和教育工具。要在实用性和风险之间取得平衡,很可能需要周密的监管。
这项工作还可能迫使人类改变他们彼此互动的方式。Jones 和 Bergen 设想,由于能够胜任人工智能对手的普遍存在,社会将更加注重真实的人际互动。
这种模糊机器与人类之间界限的做法,无疑会让图灵本人也着迷。
参考:大型语言模型通过图灵测试:arxiv.org/abs/2503.23674














