
噢,人工智能,你成长得真快。就在三个月前,你还在学习走路,我们看着你迈出摇摇晃晃的第一步。今天,你已经能踢足球和摔跤了。时间都去哪儿了?事实上,在过去的几个月里,我们就像骄傲的父母一样,看着 AI 取得了一个又一个暖人心房的小里程碑。你可能还记得,今年七月,谷歌在英国的人工智能公司 DeepMind 开发了一种算法,学会了自己走路。研究人员在他们的算法中建立了一个基本功能,只奖励 AI 取得向前进展的行为。通过寻求最大化奖励,复杂的行为如走路和避开障碍物就自然而然地出现了。本月,非营利研究机构 OpenAI 的研究人员使用了类似的方法来教 AI 玩相扑摔跤、踢足球和擒抱。他们的 AI 由两个拟人化智能体组成,两者都在寻求最大化其奖励。最初的设置是,每个智能体因在环境中移动和探索周围环境而获得奖励。然后,研究人员将奖励参数缩小到一个特定的、但简单的目标。

还记得 AI 学会走路的时候吗?是不是很可爱?在相扑摔跤场景中,两个智能体都因探索比赛场地的参数而获得奖励,研究人员根据距离中心的位置改变了奖励量。然后,他们取消了这种奖励,以便智能体学会优化一个更基本的奖励:把另一个推出去。一轮又一轮,每个智能体的相扑技巧都有所提高,他们甚至自学了新的技巧来迷惑对手——比如在最后关头假动作来欺骗冲锋的对手。同样的方法也适用于其他挑战,比如足球和擒抱。虽然这些是很酷的技巧,但重要的是要记住,所有这些行为都只是对无数计算的优化解决方案的反映。当然,它们看起来像拟人,但这完全是数学。
OpenAI 的这项工作突出了“竞争性自我博弈”对未来 AI 训练的价值。通过提供基本的奖励参数,AI 可以通过高速的试错过程发展出令人惊讶的新奇行为来解决任务。今天可能是相扑摔跤或笨拙的跑酷,但预见机器人自学者在现实世界中学会优雅地行走、照顾老人或管理你的 401(k) 基金也并非遥不可及。从我们所见,AI 似乎正处于“可怕的两岁”阶段:笨拙地四处乱撞,摔倒在地,学习玩耍。但如果自我博弈是 AI 成熟的关键,我们可能希望跳过青春期。













