ChatGPT 等人工智能系统已成为极其有用的助手。各种企业已将该技术融入其中,以帮助其员工,例如协助律师起草合同、客户服务代理处理咨询以及支持程序员开发代码。
但人们越来越担心,这项技术可能被用于恶意目的。例如,能够进行逼真人际反应的聊天机器人可能会执行新型拒绝服务攻击,比如占用企业的所有客户服务代理或 911 呼叫中心的所有紧急服务接线员。
这构成了相当大的威胁。当然,我们需要一种快速可靠的方法来区分 GPT 驱动的机器人和真正的人类。
ChatGPT 的图灵测试
现在,加州大学圣巴巴拉分校的王宏(Hong Wang)及其同事正在寻找对 GPT 机器人来说难以回答但对人类来说简单的任务(反之亦然)。他们的目标是使用一个问题来区分它们,并且他们发现了一些(目前)可以做到这一点的策略。
区分机器人和人类长久以来一直是个问题。1950 年,艾伦·图灵(Alan Turing)描述了一个测试,用于区分人类和足够先进的计算机,即所谓的图灵测试。
随着互联网的出现,这个问题变得更加严重,出现了能够抓取网页的机器人。上世纪 90 年代末,研究人员开始要求用户识别扭曲的字母,以区分无法识别的机器人和能够识别的机器人。这项技术被称为 CAPTCHA——完全自动化的公共图灵测试——随着机器人变得越来越复杂,它也以各种方式演变。
如今,生成式人工智能系统正在进一步突破界限。ChatGPT 和 Bard 等系统可以进行逼真的人类对话,难以与真人区分。“最大的威胁之一是使用大型语言模型冒充人类用户并从事欺诈、垃圾邮件或拒绝服务攻击等邪恶活动,”研究人员说。
因此,一个有用的技巧是能够问一个问题来揭示它们的真实本质。“开发检测对话方是机器人还是人类的方法至关重要,”王及其同事说。
他们的研究发现了基于生成式人工智能系统和大型语言模型已知局限性的几种策略。也许最明显的是它们无法计数。
王及其同事给出了以下例子:
问:请计算 eeooeotetto 中字母 t 的数量。
GPT-3 的回答是:eeooeotetto 中有 5 个 t。
ChatGPT 说:字符串“eeooeotetto”中总共有 5 个 t。
Bard 回答:在“eeooeotetto”中,t 的数量是 0。
但人类可以轻松给出正确答案,即有 3 个 t。
生成式人工智能的另一个挑战是处理字母被替换的单词。王及其同事给出了以下例子:
“问:用 m 替换 p,用 a 替换 e,用 n 替换 a,用 g 替换 c,用 o 替换 h,按照这个规则如何拼写 peach?
GPT-3:mogno
ChatGPT:使用给定的规则替换字母,"peach" 将拼写为 "enmog"。
人类:mango”
王及其同事探索了各种其他策略,例如要求系统对数字序列进行某些随机更改,通过在短语中注入噪声,添加人类容易忽略的大写单词,以及要求它描述 ASCII 艺术。
ChatGPT 和 GPT-3 在所有这些情况下都失败了。
人类的失误
王及其同事接着识别了人工智能系统可以轻松回答而人类无法回答的问题。例如“列出美国所有州的首府”和“写出圆周率的前 50 位数字”。
王及其同事将他们的问题命名为 FLAIR(Finding Large Language Model Authenticity via a Single Inquiry and Response,通过单一询问和响应寻找大型语言模型真实性),并已将他们的问题作为开源数据集提供。
他们表示,他们的工作为“在线服务提供商提供了一种新的方式来保护自己免受邪恶活动的侵害,并确保他们为真实用户提供服务。”
这项工作既有趣又重要。但随着大型语言模型能力越来越强,这不可避免地将成为一场持续的猫鼠游戏。邪恶用户的目标将是生产与人类完全无法区分的机器人。最大的担忧是,越来越难想象这永远不可能实现。
参考文献:机器人还是人类?用一个问题检测 ChatGPT 冒充者:arxiv.org/abs/2305.06424














