早在2017年,一群研究人员在路牌上贴了几张贴纸,这些贴纸在人类看来就像普通的涂鸦。然而,这些贴纸的排列方式经过精心设计,能够欺骗自动驾驶汽车的机器视觉系统。在随后的测试中,这些机器视觉系统将“停止”标志误识别为“限速45英里/小时”。
这种通过向AI系统提供旨在迫使其得出错误结论的数据的做法,被称为对抗性攻击。尽管这只是一个研究项目,但如果被滥用,其后果显然是灾难性的。
从那时起,AI研究人员开始探索这些攻击的性质,并思考是否有可能设计出免疫这些攻击的AI系统。特别是,一些研究人员认为,通过自我对抗训练的AI系统应该能够抵御对抗性攻击。其思路是,如果AI系统存在某种弱点,自我对抗的过程应该能找到它,并帮助系统学会保护自己。
内置漏洞?
通过自我对抗训练的AI系统示例包括各种游戏程序,它们仅通过自我对抗就学会了以超人的水平进行游戏。因此,研究人员渴望了解这些系统是否会成为对抗性攻击的受害者。
现在,得益于马萨诸塞州理工学院(麻省理工学院)的Tony Tong Wang以及加州大学伯克利分校的Adam Gleave及其同事们的工作,他们得到了答案。这个团队训练了一个攻击者,成功击败了一个名为KataGo的最先进的围棋AI系统,该系统以接近超人的水平进行游戏。“据我们所知,这是第一次成功地对达到顶级人类职业选手水平的围棋AI进行端到端攻击,”该团队表示。
这项工作打破了这类AI可能对对抗性攻击免疫的说法,并对它们在安全关键角色(如自动驾驶汽车)中的应用提出了许多疑问。
KataGo是目前公开可用的最强大的围棋程序。它通过自我对抗来学习技巧,并由此产生大量的游戏数据库,从中获得技能。
对抗性攻击的思路则不同。简单地创建一个另一个围棋AI系统并让它寻找KataGo的弱点,这种策略成功率有限,甚至可能无效。
相反,Wang、Gleave和同事们赋予了他们的攻击者一个关键优势,称为“灰盒访问”。这意味着在KataGo评估棋盘并选择下一步棋子的每一次,都能访问其神经网络。
灰盒访问让攻击者深入了解KataGo的决策过程。它还允许攻击者探索传统围棋AI认为不可行的策略。通过这种方式,攻击者可以找到欺骗KataGo的方法。
在这种情况下,欺骗的方法是,在围棋盘上创建一个棋子图案,KataGo会错误地将其评估为有利的局面。然后,它会因此向攻击者投降,而攻击者处于更有利的位置。
这是一个令人印象深刻的结果。攻击者本身并非强大的AI玩家。Wang、Gleave和同事们表示,一个业余人类应该能轻易击败它。相反,它依赖于这种欺骗,就像STOP标志上的奇怪贴纸图案一样。
这项工作的重要性在于,它表明自我训练的AI代理可能普遍容易受到此类攻击。
保密代码
这项工作确实存在一些局限性。例如,该攻击作用于KataGo的一个“冻结”版本,即一个不会从经验中学习的版本。它还需要对神经网络进行灰盒访问,而这对于私有的围棋AI(如代码保密的谷歌AlphaGo)是不可用的。该攻击在KataGo搜索时间有限时效果最好。
研究人员表示,当AI有更长时间来搜索替代方案时,攻击该程序会更加困难。他们认为,寻找对使用搜索的AI代理更有效的对抗性攻击将非常有趣。“如果不存在这样的方法,那么搜索可能就是对抗攻击的可行防御手段,”他们说道。
这将是未来研究的重要领域。找到对抗攻击的方法,甚至可能是一种通用方法,可以使这类恶意攻击过时。如果发生这种情况,受益的不仅是围棋AI,还有任何将安全寄托在AI系统上的人,包括自动驾驶汽车的乘客。
参考: 对抗策略击败职业级围棋AI : arxiv.org/abs/2211.00241














