在 1950 年的论文《计算机器与智能》中,艾伦·图灵提出了如今在人工智能领域被称为图灵测试的概念。其思想是,如果你无法区分一个计算机和一个通过键盘和屏幕回答你问题的**人类**,那么这个计算机就是智能的。

这个想法存在许多问题,但尽管存在这些问题,它仍然是一个引人注目的基准,而且尚未达到。但可以考虑以下变体:与其让你的计算机和人类团队回答任何旧问题,不如让问题类似于你在益智电视节目 Jeopardy! 中会遇到的题目——以答案的形式给出琐碎的线索,而你必须想出问题。即使是图灵测试的这个大大受限的版本也非常具有挑战性,但 I.B.M. 的名为“Watson”的机器最近在通过它方面取得了引人入胜的进展。Watson 会接收任何 Jeopardy 式的问题并给出回应。它不是作为一种新型智能测试开发的,而是作为一项在语言类任务中击败人类的宏大挑战(IBM 的深蓝国际象棋电脑在 1997 年击败了世界国际象棋冠军)。你可以在这里自己挑战它。它目前使用数百万个固定的大量文档和一个运行在超级计算机上的复杂并行统计算法。通过并行化,该算法可以同时尝试对问题的大量可能解释,并选择最可能的解释。原始图灵测试的一个问题(Jeopardy 测试也存在此问题)是,只有可以通过语言表达的智能形式才有资格进行测试。例如,一个机器人可以通过图灵测试,然后在尝试迈出第一步时摔倒,这是完全一致的。行走是一项技能。它由大脑中与诸如鼻孔冲洗壶是什么之类的**事实**不同的部分学习。“程序性记忆”是这种技能的记忆,而“陈述性记忆”是关于事实的记忆——神经科学的许多研究表明,这两种记忆存在于大脑的不同位置。但是,正如我们可以确定哪些类型的智能会从图灵测试的缝隙中溜走一样,思考 Jeopardy 测试可以测试哪些类型的智能,以及它相对于图灵测试可能在哪些方面失败,也很有趣。例如,虽然一个通过图灵测试的机器应该能够令人信服地回答关于其初吻的问题,但 Watson 在这个问题上可能会很困惑。据推测,一个能够令人信服地描述初吻经历的机器(至少对于最初的几个模型而言!)是在进行巧妙的欺骗——但尽管如此,描述“第一人称”状态(如初吻伴随的情感)非常复杂,而且令人信服地伪造它很难。通过这种方式,我们可以看到 Jeopardy 测试比图灵测试的要求更低。但这很好——Jeopardy 测试本身就是一个巨大的挑战,如果 Watson 最终在与人类的正面交锋中获胜,那将是一个了不起的突破,预计将在今年秋季某个时候进行。拥有更多可实现且通往图灵测试的中间测试对于人工智能研究人员来说非常有益。虽然我们知道不应期望 Watson 能正确回答关于情感的问题,但也有一些简单的事实我们无法期望它知道。例如,一个通过图灵测试的计算机必须能够令人信服地回答随机的个人传记问题,比如“你的第一个成绩单是在哪里拿到的?”,但如果将 Jeopardy 式的问题形式提供给 Watson——“我第一个成绩单是在哪里拿到的”——应该会让它措手不及。你能想到其他能够通过图灵测试但会让 Watson 冒烟的东西的例子吗?在评论区留下你的想法。













