广告

为什么《星际争霸》是测试人工智能的完美战场

现实世界充满了复杂的挑战。奇幻领域正在训练计算机来解决它们。

Google NewsGoogle News Preferred Source
《星际争霸 II》中的 Protoss 对 Zerg 的对决。来源:DeepMind

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

DeepMind,谷歌母公司的一个分支,于一月份推出了一款能够在世界上最艰难的视频游戏之一中击败职业玩家的计算机程序。*《星际争霸》*是一个军事科幻系列,设定在一个充斥着冲突的宇宙中,敌人的军队为了成为最强大的力量而对峙。DeepMind 的程序 AlphaStar 达到了*《星际争霸 II》*的最高级别——宗师。根据十月份发表在《*自然》*杂志上的一项研究,它可以击败 99.8% 的人类玩家。

广告

*《星际争霸》*是世界上最受欢迎、最困难的电子竞技游戏之一。这一地位促使许多程序员将其用作人工智能的训练场。不仅仅是 DeepMind 这样的企业研究团队在测试*《星际争霸》*,业余玩家和学者也在挑战使用自主机器人来击败人类*《星际争霸》*玩家。

但为什么是*《星际争霸》*?表面上看,这款视频游戏具有其奇幻对应物的典型特征:后末日世界的冲突,成为最强大对手的竞赛,以及击败敌人的战斗。但与《*光环》*或《*守望先锋》*等游戏中控制单个第一人称射击代理不同,玩家需要管理一群协同工作的建造者、战士和防御系统,以防止自己失败。

尽管*《星际争霸》*本质上是奇幻的,但它多层面的世界创造了与我们现实相似的复杂性。利用这款游戏作为孵化器来训练计算机,可以帮助研究人员构建在现实世界中具有影响力的更好机器人。

小心你的背后

训练人工智能算法以在游戏中击败人类有着悠久而辉煌的历史。甚至在计算机出现之前,人们就创造了虚幻的“机器人”来在国际象棋等游戏中击败玩家。1997 年,IBM 的深蓝击败了国际象棋世界冠军,随后,DeepMind 的 AlphaZero 和 AlphaGo 等强大计算机算法也相继在各自的领域击败了人类棋盘游戏大师。

但视频游戏将复杂性提升到了一个新的水平。在*《星际争霸》*中,玩家扮演三个种族之一——人类、Protoss 或 Zerg——每个种族都有一定的优势和劣势。例如,Protoss 是强大的战士,但不擅长快速孵化。另一方面,Zerg 孵化最快,但战斗力不强,因此其力量在于数量。

除了简单地选择种族的优势和劣势外,您还控制多个方面:收集资源的工人,建造防御系统的建造者,以及攻击敌人的战士。您必须关注您的单位,同时确保其他玩家不会利用您的弱点。

基于这些方面,研究人员研究了某些技术如何导致最有效的游戏玩法。2011 年,纽芬兰纪念大学的计算机科学家 David Churchill 联合发表了一篇关于《星际争霸 II》中建造顺序的论文,研究了资源建造的优先级如何影响游戏中的成功。

Churchill 表示,这项研究让我们更清楚地了解算法如何在模拟环境中解决问题。

“游戏人工智能有一种特殊的吸引力,可以让公众更容易理解,”Churchill 说。游戏也提供了一种测试算法“智能”的方法——它学习、计算和自主执行命令的能力有多强。

广告

超越棋盘

在*《星际争霸》*之前,Churchill 开始尝试设计来击败棋盘游戏的算法。他为他的博士论文编写的程序旨在赢得一款名为*《Ataxx》*的游戏,这是一款 20 世纪 90 年代的街机风格策略游戏,在一个虚拟棋盘上进行。这是他第一次创造出一个能够玩得比他自己更好的程序。

从那时起,Churchill 的研究重点转向了视频游戏人工智能,而*《星际争霸》*是他最喜欢的游戏之一。将棋盘游戏 AI 与视频游戏 AI 分开的一个看似简单的因素是:玩家能够一次性看到整个地图。

广告

与*《Ataxx》*不同,在*《星际争霸》*中,如果不滚动屏幕,您就无法看到整个地图,这使得更难监控您所有的资源。这也使得更难看到您的敌人正在策划什么——或者,正如 Churchill 所说,将您笼罩在“战争迷雾”之中。

“在你和敌人面对面之前,你不知道他在做什么,”他说。这更贴近现实生活;在大多数情况下,你对问题的了解都不是全知的。

像跳棋或国际象棋这样的游戏不是实时进行的——一旦一个玩家下了一步,对手就没有时间限制来下自己的棋。但是,正如 Churchill 所说,“在*《星际争霸》*中,如果我没有攻击你,你就在攻击我。”

他甚至将其与看似简单的足球进行比较。如果你在球场上站着不动,球员们会继续踢球,进球会继续得分,比赛也会继续进行。*《星际争霸》*也是如此——无论你是否密切关注你的部队或积极对抗你的敌人,游戏都会继续进行,无论你是否干预。

广告

攻克像*《星际争霸》*这样复杂的游戏,可以帮助科学家在变量众多的环境中训练算法学习新技能。Churchill 说,视频游戏可以成为教授机器在图像识别、搜索建议或任何需要协助人类做决定的算法方面做得更好的门户。

“(游戏中的)那种复杂程度开始接近我们在现实世界中所见的,”他说。

机器人战场

自 2011 年以来,Churchill 一直在组织一个名为 AIIDE 星际争霸 AI 竞赛的年度国际赛事,游戏爱好者和专业人士齐聚一堂,为游戏构建和测试算法。其中一款游戏是*《星际争霸》*,尽管他们使用*《星际争霸:燃烧的远征》*作为测试场,而不是*《星际争霸 II》*。

但 Churchill 说,团队为 AIIDE 构建的机器人与 AlphaStar 等项目不同。有些是“真正的 AI”,即使用神经网络来学习模式并利用过去的知识来赢得游戏的机器人。另一些则采用更简单的方法,使用硬编码的规则,在发生特定情况时指示单位以特定方式移动。

广告

每年,组织者都会强制执行一项规则,即团队必须在比赛后开源他们的代码。这样,竞争对手就可以借鉴过去的算法,使他们的机器人更强大、更智能、更有力。

即使 AlphaStar 成为头条新闻,Churchill 表示竞赛也不会消失。尽管 DeepMind 团队吹嘘该算法的高成功率,但该项目投入的资源达到了远远超出普通编码员能力的标准。

广告

“这是一项难以想象的事业,”Churchill 说。而仍然存在的挑战表明,越大不一定越好。

TPU 太多了?

AlphaStar 最初亮相时,该算法表现出了超人类的能力。它拥有超越人类的某些优势;例如,计算机可以看到所有可见的单位,而无需平移地图来执行命令,并且执行动作比专业玩家点击鼠标更精确。

因此,为了发表*《自然》*论文,DeepMind 限制了计算机同时控制其单位的能力。从一开始就对程序的运行速度和能力设置了其他限制,以使其更接近人类玩家的水平。但即使有了这些限制,AlphaStar 仍然能够击败专业人士。

而机器背后的力量比以往任何*《星际争霸》*机器人都要强大。DeepMind 创建了多个自动化玩家来专门扮演特定种族,并通过让他们观看人类游戏回放 44 天来训练他们。处理能力得到了谷歌第三代张量处理单元(TPU)的支持,这是一种功能强大的芯片,用于其机器学习程序,如谷歌翻译。

DeepMind 设计用来击败围棋的 AlphaGo使用了 4 个 TPU。而 AlphaStar 则使用了惊人的 32 个。

“他们创造的是一个只有 DeepMind 才能使用的算法,”Churchill 说。对他来说,下一个挑战是研究人员如何缩小游戏算法的规模,使其消耗更少的能量,并更优雅地运行。

广告
广告

团队游戏,与一对一的战斗相比,也可能为无人机器人带来新的挑战。随着算法不断与人类玩家融合,可能会出现人类和 AI 同队作战的时刻。

但目前,像*《星际争霸》*这样的游戏将继续推动机器学习如何应对复杂问题的研究。对 Churchill 来说,奇幻世界和现实世界几乎难以区分。

“这一切都是有利有弊,”Churchill 说。“每个人都有一些他们试图最大化的东西……你在玩最大化数字的游戏。这就是我们在游戏中做的。”

编者注:本文已从早期版本更新,以纠正 AIIDE 星际争霸 AI 竞赛的名称,并澄清 DeepMind 程序员赋予 AlphaStar 的能力。

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章