当今时代的一大恐惧是,生成式人工智能系统赋予了恶意行为者前所未有的能力,让他们能够以前所未有的规模进行欺骗、操纵和盗窃,从而破坏我们的信任体系、民主和社会。
从选举干预到大规模制造虚假评论,此类例子比比皆是。事实上,很容易想象到,这仅仅是目前正在破坏我们生活方式的阴险行为的一小部分。
当然,真相更加微妙,但这引发了一个更广泛的问题:如何更好地理解这些恶意的 AI 技术,它们被应用于何处,由谁使用,规模如何,以及目的为何。
现在,我们终于得到了答案。这得益于 Google DeepMind 的 Nahema Marchal 和 Google Jigsaw 的 Rachel Xu 以及他们的同事的研究。他们研究了生成式人工智能的滥用情况及其在过去几年中的演变。他们的方法揭示了各种各样的恶意活动,并对其进行了分类。“我们阐明了在此期间出现的关键和新颖的滥用模式,包括潜在的动机、策略以及攻击者如何利用和滥用系统能力,”他们说道。
涌现式通信
在此过程中,他们还发现了一些介于人工智能可接受使用和不可接受使用之间的活动。“这包括出现新的政治外展、自我推销和倡导形式的通信,模糊了真实性和欺骗之间的界限,”团队表示。
他们的方法出奇地简单。Marchal、Xu 和同事分析了 2023 年 1 月至 2024 年 3 月期间发布的 200 多篇关于人工智能系统滥用或误用的媒体报道。然后,他们对报告的滥用类型和模式进行分类,创建了恶意行为者在其工作中使用的策略分类法。
研究人员表示,滥用类型可分为两大类:一类是利用生成式人工智能系统,另一类是试图破坏同一系统以泄露受保护信息或执行其他被禁止的任务。
然后,他们进一步细分了这些类别。第一类也是最常见的一类是利用生成式人工智能,涉及逼真地描绘人类形象,用于冒充、创建虚拟身份以及生成未经同意的色情图像。“最普遍的策略集群涉及对人类形象的操纵,特别是冒充,”Marchal、Xu 和同事说道。
一个例子是 PBS 新闻报道的关于 AI 电话机器人冒充拜登总统试图压制新罕布什尔州的投票 的故事。
第二类涉及对非人类物体的逼真描绘,包括伪造身份证明等文件,以及创建旨在以假乱真的仿制品。
他们说,最后一类则侧重于内容生产机制。这包括自动化工作流程、大规模生产以及以可针对特定个人的方式进行生产。在一个例子中,研究人员使用 ChatGPT 向立法者大量发送电子邮件 以提高人们对 AI 生成电子邮件的认识。
尽管滥用应用范围广泛,但 Marchal、Xu 和同事得出结论,大多数滥用行为使用的是易于获得的生成式 AI 功能,而不是技术上复杂的 AI。
也许最有趣的是,出现了新的通信形式,模糊了生成式 AI 的可接受使用和不可接受使用的界限。例如,在印度最近的选举中,出现了以个人选民的姓名和他们所说的语言进行交流的政治虚拟形象,而各种政治家则使用自己的深度伪造视频来传播信息,同时也以更积极的形象展示自己。
这些例子很少明确承认在这些竞选活动中使用了生成式 AI。“未经适当披露的生成式 AI 驱动的政治形象塑造和宣传,通过使公众难以区分真实描绘和虚假描绘来破坏公众信任,”研究人员说道。“我们已经看到了‘骗子红利’的案例,即知名人士能够将不利证据解释为 AI 生成的。”
扩大盈利
除了冒充人类和施加不当影响的努力之外,AI 恶意用户的最常见目标是为产品牟利。例如,大规模生成低质量的文章、书籍和广告,以吸引眼球并产生广告收入。
制作未经同意的色情图像也是一项活跃的商业活动,例如,以收费服务的形式对女性进行“裸体化”。
当然,这项研究存在一些局限性,研究人员很想强调这一点。例如,它完全基于对恶意在线活动的媒体报道,这种方法可能会带来偏见。例如,媒体往往倾向于报道最耸人听闻的例子,这可能会夸大某些耸人听闻的活动,同时低估其他不太吸引眼球但同样阴险的活动。
但 Marchal、Xu 和同事在研究生成式 AI 恶意使用生态系统方面迈出了重要的一步。他们的工作引发了关于这些活动深远影响以及它们如何改变交流本质和社会本身的重要问题。
该团队并未试图量化变化的速度,但可以很容易地想象到这些活动的影响将如何呈指数级增长。人类不擅长想象指数级变化的后果,这使得这个问题更加令人担忧。
Marchal、Xu 和同事总结道:“这些发现强调了需要采取多方面的方法来缓解生成式 AI 的滥用,这需要政策制定者、研究人员、行业领导者和民间社会之间的合作。”越早越好。
参考:生成式 AI 滥用:策略分类法和真实数据洞察 : arxiv.org/abs/2406.13843














