到2023年初,大型语言模型(LLMs)风靡全球。可以说,ChatGPT 引领了这场革命。这款交互式聊天机器人允许用户发表评论、提问、提出请求或与计算机程序进行对话。它是一种生成式人工智能,这意味着在经过海量数据训练后,它能够生成全新的内容,而且读起来非常令人信服——甚至有些诡异——仿佛是由人类创作的。
尽管 ChatGPT 能够模仿人类语言,但它的训练目标是完成一项直接的工作:利用概率和训练数据预测一系列单词后面出现的下一个文本。佛罗里达国际大学计算机科学家马克·芬莱森表示,这种能力使其对从事文本工作的人们非常有用。“它非常擅长生成通用、初中水平的英语,这对于人们日常生活中所写内容的80%来说是一个很好的起点,”他说。
据金融公司瑞银的分析师称,到一月底,也就是在其在线首次亮相仅仅两个月后,ChatGPT 的用户数量已达到1亿。这让所有人——包括这项技术背后的公司 OpenAI——都感到惊讶。
“我们确实低估了它会产生的影响,”OpenAI 协助测试 ChatGPT 并开发应用程序的安德鲁·梅恩说。作为对比,社交媒体平台 TikTok 花了九个月才达到这个用户里程碑,而 Twitter(现为 X)则用了五年多。(ChatGPT 打破了记录,但随后又被旨在与 Twitter 竞争的社交媒体程序 Threads 打破,Threads 在七月份仅用了五天就获得了1亿用户。)
这些用户都在用这个新的人工智能工具做什么呢?他们能想到的任何事情。不道德的大学生用它写论文,而有抱负的创作者则请求程序生成歌词、诗歌、食谱、短篇故事和同人小说。
ChatGPT 还展示了意想不到的才能,例如解决数学问题(尽管并非总是正确)、编写计算机代码以及其他似乎与其训练数据关系不大的能力。“我们开始看到它做一些我们没有明确训练它去做的事情,”梅恩说。
ChatGPT 生成文本,但其他生成式人工智能工具则生成音乐、图像、视频或其他媒体——这是大量虚假信息、恶作剧和麻烦的来源。人工智能并非总是值得信赖;这些程序可以生成毫无意义或事实不准确的陈述(或图像),但它们却以令人信服的方式呈现。它们还可以放大训练数据中的不平等以及社会或种族偏见,或生成模仿人类创作者的艺术或音乐(并可能被数千万在线用户有意或无意地分享)。
犯错的机会
去年二月,谷歌发布了自己的聊天机器人 Bard,但在其首次公开演示中犯了一个令人尴尬的事实错误。(它报告说詹姆斯·韦伯太空望远镜捕获了第一张系外行星图像,但这一壮举是2004年由甚大望远镜实现的。)四月,一首名为“Heart on My Sleeve”的洗脑歌曲开始在网上流传,据报道是音乐家 Drake 和 The Weeknd 合作的作品。但事实并非如此:“Heart on My Sleeve”是一个音乐深伪。一位匿名创作者训练了一个生成式人工智能程序,以令人信服地模仿这两位歌手。
随着如此多的应用——以及出错的机会——这些工具的兴起引发了兴趣、辩论、焦虑和兴奋。
“你第一次可以真正和电脑对话,”位于加利福尼亚州圣莫尼卡的兰德公司(一家研究机构和智库)的社会语言学家和行为科学家比尔·马塞利诺说。“这很激进。”
构建人工智能系统的探索至少可以追溯到20世纪60年代,以及麻省理工学院计算机科学先驱约瑟夫·魏泽恩鲍姆设计的名为 ELIZA 的系统。它是一种机械治疗师,利用用户输入中的关键词生成回应,但它看起来像是在进行非正式对话。
这是一种程序——也许是其类型中的第一个——甚至可以尝试图灵测试。该测试以计算机科学先驱艾伦·图灵命名,是一种衡量人工智能系统能力的方法。如果与系统对话的人无法判断它是人类还是机器,那么该系统就通过了测试。ELIZA 没有通过。专家们对于 ChatGPT 等较新的人工智能工具是否通过了测试,或者图灵测试是否仍然是一个有用的衡量标准存在分歧。
“LLMs 能够做一些看起来像推理的事情,”马塞利诺说。但这与人类思维不同。“我不想对实际智能做出断言。”
重要的是,ELIZA 是基于规则的,这意味着它机械地响应用户的输入。而较新的 LLMs 不遵循一套规则,而是分析先前的模式以提供预测新文本(或图像,或音乐)的概率。
生成式人工智能程序通常基于人工神经网络,它们分析数据并找出输入之间的联系(例如,哪些词经常一起出现)。2017年,谷歌推出了一种神经网络方法——Transformer,它能够快速识别单个输入中的模式和联系,从而使它们取得了重大飞跃。例如,它寻找文本中每个词与特定输入长度内每个其他词连接的方式。
Transformer 彻底改变了语言模型。它使它们能够快速在海量数据集中找到单词之间的联系。ChatGPT 最初由 GPT-3.5 提供支持,这是一种大型语言模型,其训练数据集包括来自书籍、文章和互联网的文本,总计约3000亿个单词。3月发布的 GPT-4 表现甚至更好。(一个衡量标准是:当 ChatGPT 参加统一律师资格考试——一项律师执业执照知识测试时,该模型得分处于最低的10%之列。而当 GPT-4 参加该测试时,它达到了最高的10%。)
潜在的益处
马塞利诺表示,该领域仍在不断发展。研究人员正在寻找方法来构建更小、更灵活的模型,以利用 ChatGPT 的潜力,将该工具应用于医学、军事等领域。例如,他和他的团队已经为美国陆军的行话开发了一个聊天机器人。
生成式人工智能程序可能带来的潜在益处,与日益增长的风险(从网络安全到版权侵权,从身份盗窃到国家安全)相匹配——而且常常被后者所掩盖。这些威胁已经存在;问题是 LLMs 是否会扩大其影响范围。更多的法规可能会有所帮助:例如,医疗保健研究人员呼吁加强政府监管,以确保 LLMs 的使用不会造成伤害,并保护患者数据的隐私。
芬莱森预测,这些新工具将提高工人的效率,但他认为它们不会取代人类的需求——至少在大多数领域不会。
“ChatGPT 没有是非观念,没有对错或事实的观念。它不植根于现实世界,”他说。“它发展得非常快,人类的独创性仍然以非常重要的方式被需要,以解决这些已经出现的问题。我认为我们将迎接这一挑战。”
本文最初发表于我们 2024 年 1 月/2 月刊。点击此处订阅以阅读更多此类故事。















