世界上最顶尖的扑克玩家在一场比赛中可以赢得数百万美元。扑克游戏在赌场、扑克俱乐部、私人住宅和互联网上都能玩到,这项游戏需要技巧和策略。
现在,科学家们创造了一个人工智能(AI)机器人,它甚至可以击败最顶尖的人类玩家。而且这个新的人工智能在六人扑克比赛中获胜了。机器人已经在两人或三人扑克中占据主导地位,但六人扑克要困难得多。 这项成就代表了人工智能的一项重大突破,未来可能不仅仅应用于纸牌游戏,还可以延伸到从网络安全到自动驾驶汽车导航的各个领域。
“这项研究实际上并非真正关于扑克,”计算机科学家 Noam Brown 说,他在卡内基梅隆大学攻读博士学位并担任 Facebook AI 研究科学家期间撰写了这项研究。
“它是关于开发能够处理复杂多参与者环境中隐藏信息的人工智能。”
里程碑式的任务
在任何扑克游戏中,目标都是赢得“底池”,即玩家在每一轮牌局中下的所有赌注的集合。玩家通过拥有手中最高排名的五张牌组合获胜,或者通过下注而没有其他玩家匹配来获胜。由于有多个玩家,参与者必须处理关于对手的不完整信息,这种情况使得人工智能以往难以取得成功。
“扑克是解决这个更普遍问题的有用基准,因为在扑克中,我们可以客观地衡量与那些致力于追求游戏人类表现巅峰的专业人士的比赛表现,”Brown 解释道。
两年前,Brown 和一个研究团队开发了另一个名为 Libratus 的人工智能,它击败了玩单挑无限注德州扑克的职业玩家,这是该游戏的一个双人版本。但由于大多数实际应用涉及的参与者都超过两人,开发一个能在最受欢迎的游戏版本——六人无限注德州扑克中获胜的机器人,一直是长期存在的挑战。
现在,研究人员公布了他们改进后的人工智能,称之为 Pluribus。Pluribus 首先与自身的多个副本进行比赛,以创建研究人员称之为“蓝图策略”。随着人工智能的比赛,它会找出哪些行动会导致更好的结果。然后,在与人类 对手比赛时,Pluribus 通过实时搜索更好的策略来改进蓝图策略,以更好地适应当前游戏的具体情况。
超乎常人的策略
研究人员周四在《科学》杂志上公布,该总体策略使 Pluribus 首次击败了一些顶尖玩家。在为期 12 天的 10,000 手牌比赛中,当 Pluribus 与五名职业扑克玩家进行比赛时,它取得了很高的胜率。Pluribus 的胜率为每局 48 个大盲注,这是根据第二个玩家在底池中投入的金额计算的赢钱度量。48 被认为是相当高的胜率。
在另一轮比赛中,一名顶尖人类玩家与 Pluribus 的五个副本进行了 5,000 手牌的扑克比赛,结果人工智能以每局 32 个大盲注的优势击败了人类玩家。作为对比, 扑克巨星 Chris “Jesus” Ferguson,他的现场比赛收入接近 1000 万美元,但他落后于 Pluribus 每局 25 个大盲注。
“Pluribus 以超乎常人的水平进行比赛,并且在六人扑克比赛中击败了顶尖人类职业玩家,即使他们在观察机器人的策略并适应它方面有充足的时间,”Brown 说。
“未来,我可以看到这项研究的应用范围从网络安全到打击欺诈,再到自动驾驶汽车的交通导航,”他补充道。














