广告

人工智能刚刚掌握围棋,但一款游戏仍然让 AI 感到困扰

了解 AlphaGo 算法如何利用深度学习掌握极具挑战性的围棋,推动了游戏及其他领域的人工智能发展。

Google NewsGoogle News Preferred Source

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

(图片来源: Saran Poroong/Shutterstock) 围棋是一款起源于中国、拥有 2500 多年历史的双人棋盘游戏。围棋的规则很简单,但它被广泛认为是掌握难度最大的策略游戏。对于人工智能研究人员来说,开发一个能够击败围棋世界冠军的算法,代表了圣杯般的成就。好了,现在圣杯已经找到。由Google DeepMind 研究员 David Silver 和 Demis Hassabis 领导的研究团队设计了一个名为 AlphaGo 的算法,该算法于 2015 年 10 月以五比零的比分轻松击败了欧洲围棋冠军 Fan Hui。顺便说一句,在与 Fan Hui 对弈之前,AlphaGo 在与现有围棋程序进行的比赛中赢得了 494 场,输了 1 场——AlphaGo 甚至给了实力稍弱的程序四个免费的先行棋步。“可以说,这比该领域专家预期的还要领先五到十年,”Hassabis 在周二的新闻发布会上说。深蓝在国际象棋比赛中击败了人类。IBM 的 Watson 在《危险边缘》智力问答节目中赢得了奖金。Silver 和 Hassabis 在 2015 年公布了一个能够征服经典雅达利游戏的算法。似乎每年,人类在游戏领域对计算机的统治地位都在一点点丧失。今年三月,32 岁的李世石——本世纪最伟大的围棋选手——将在韩国首尔代表人类与 AlphaGo 进行一场类似卡斯帕罗夫与深蓝的智力较量。如果李世石落败,那么围棋也将成为人类让出统治权的又一个游戏。但是,有一项桂冠,至少在一段时间内,计算机将难以从人类手中夺走:扑克世界大赛冠军的奖杯。十人无限制扑克是我们娱乐至高无上的最后堡垒,而计算机在这款游戏中难以获胜的原因,恰恰说明了 AI 研究人员正在努力解决的一个宏观问题。AlphaGo 便是朝着这个方向迈出的一步。

广告

2006 年扑克世界大赛冠军奖杯。(图片来源: flipchip/LasVegas.com/via Wikimedia)

掌握围棋

围棋之所以成为 AI 的终极挑战,是因为它是一款在给定回合中拥有海量可能走法的游戏。例如,在国际象棋中,一名棋手在给定回合可以考虑 35 种走法。而在围棋中,棋手需要考虑三百多种走法。需要考虑的局面如此之多,使得围棋获得了“圣杯”的美誉。为了征服围棋,Hassabis 和 Silver 将深度学习与树搜索能力相结合,以精简 AlphaGo 需要处理的信息量。深度学习算法依赖于人工神经网络,这种神经网络的运作方式类似于我们大脑中的连接,它们能够让计算机以人类无法企及的速度从大量数据中识别模式。Hassabis 和 Silver 最初向 AlphaGo 输入了 3000 万盘由顶尖人类围棋棋手对弈的棋局数据,直到它能够以 57% 的准确率预测下一个走法;此前的记录是 44%。然后,AlphaGo 与自己的神经网络进行了数千场对弈,通过试错来提高技能。AlphaGo 的成功在于它结合了两个网络:价值网络和策略网络。

(图片来源: Saran Poroong/Shutterstock) “策略网络可以减少我们在一手棋中需要考虑的可能性。价值网络可以缩短搜索的深度,”Hassabis 说。“与其一直看到游戏结束,不如在游戏中的某个阶段评估局面,判断谁占优。”这就是关键的突破。在此之前,解决国际象棋或跳棋这类游戏的方法是投入更多资源来更深地搜索。过去的算法依靠越来越多的计算能力来运行越来越多的直到游戏结束的模拟——也就是暴力破解——来优化策略。像深蓝这样的国际象棋程序就使用了暴力破解,但它还将窗口技术结合起来,以缩小搜索范围,减少检查错误走法的时间。然而,在搜索的浅层修剪走法可能会导致错误。但 AlphaGo 不同。它使用深度学习网络独立评估棋盘局面,并判断谁占优——而无需任何前瞻性搜索。研究人员周三在《

自然》杂志上发表了他们的研究成果。

阿尔伯塔大学科学学院院长 Jonathan Schaeffer 说:“他们能够构建一个评估函数,能够比我们之前看到的任何评估函数都更准确地评估其局面。这真是太神奇了。”

为什么扑克是一个挑战

像国际象棋、跳棋和围棋这样的游戏是在明确定义的规则框架内进行的。棋手在任何给定回合都拥有“完全信息”:你可以看到整个棋盘,局面是清晰的。计算机算法在这种环境中蓬勃发展。另一方面,在像无限注扑克这样的游戏中,棋手们处理的是不完全信息。澳大利亚新南威尔士大学和 Data61 的人工智能教授 Toby Walsh 说:“你可能不知道对手有什么牌。存在不确定性。这些就是我们面临最大挑战的游戏——包含运气和不完全信息的游戏。”“除了扑克的其他变体——不确定性和随机性——还有第三个特点:心理学。”

(ThomsonD/Shutterstock) 虚张声势、从对手的微小动作中读懂他们以及其他“ tells”是顶尖扑克玩家的关键技能。心理学、沟通和协作仍然是机器面临的挑战。理解这些信息需要大量的世界知识。这些是人类可以瞬间完成的事情。亚利桑那州立大学的人工智能研究员兼教授 Subbarao Kambhampati 说:“我可以看着朋友的脸,认出他们是我的朋友,即使他们摆着奇怪的姿势。”“如果你下棋赢了,你可以根据游戏规则给出合理的解释。但你怎么知道那个人是你的朋友呢?你很难解释。”

下一步

让算法超越明确定义的规则,对环境进行评估,这是人工智能领域的下一个重大突破。康奈尔大学计算机科学教授 Bart Selman 将此称为“常识理解”,即计算机能够像我们一样看待世界。拥有常识的算法将是连接各种分散技术的一大飞跃。想象一下,送货无人机和汽车能够解读环境反馈进行导航,或者一个超级 Siri 永远不会说“我不太理解”。Selman 说:“想象一下,没有人类司机就能运行 Uber,或者有一个真正有用的虚拟助手。如果我是第一个做到这一点的人,那里就蕴含着巨大的潜在财富。”一点常识将极大地帮助现有技术实现下一次飞跃。这就是巨大的目标,因此,公司和大学在人工智能研究上大力投资也就不足为奇了。Walsh 说:“我们将在生活中花费更多的时间与(计算机)互动,了解我们的情绪状态对它们来说将非常重要。”“要让计算机真正智能,它们必须拥有情感。”

无需恐惧

AlphaGo 是迈向“开明”AI 的一步,正如 Schaeffer 所说,AlphaGo 是第一个拥有“通用智能”的 AI。“算法本身并没有什么只对围棋游戏特别的。你可以将其应用于其他游戏,”Schaeffer 说。“这使我们能够朝着更通用的 AI 发展——一种能够玩游戏、驾驶汽车或创作诗歌的 AI。我们还没有达到那个阶段,但这篇论文代表了进步。”但是,所有关于拥有情感和常识的机器的讨论,都可能让一些人陷入世界末日的幻想。埃隆·马斯克和斯蒂芬·霍金都对人工智能的力量发出了末日警告。但对最新、最伟大的人工智能成就发表意见的专家们并不那么担心。Walsh 说:“人们不应该害怕它。这个程序没有任何自主性。它除了下围棋之外,没有任何想要做的事情。”“这里的挑战不在于智能;你可以拥有非常聪明的计算机,而没有伦理挑战。问题在于自主性,即能够实际行动的系统。”对于 Walsh 和其他人来说,更直接的担忧是其对人们工作的影响——尤其是那些任务和结果定义明确的工作。他们说,对话应该从这里开始。尽管如此,CRISPR 和 AI 的进步应该促使世界顶尖人才就伦理问题进行讨论,而这正是世界各地人工智能会议正在发生的事情。Kambhampati 说:“我们已经拥有在没有智能系统的情况下毁灭世界的能力,而我认为这些系统只会提高我们控制这种破坏的能力。”“那些‘如果’的可能性可能被夸大了,它们能引起更多媒体的兴趣,但我认为任何认真思考这些问题的人都不会担心 AI 会接管世界。”

广告

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章