2022年,当生成式AI产生的高质量图像首次出现时,它们带来了不可否认的惊艳感。创作过程几乎只涉及输入文本描述,然后等待AI系统生成相关图像。
当时,一个显而易见的问题是AI生成的视频何时能跟上。事实上,此后各个团队都推出了自动生成视频的AI系统,但它们的长度、能产生的真实动作类型以及整体质量都受到重要限制。
解决这些问题的一种方法是使用暴力计算。但这会显著增加成本。因此,人们一直在寻找更高效、更强大的方法。
光之魅影
现在,谷歌表示他们已经开发出一种技术,可以显著提高视频合成的效率。Omer Bar-Tal 和谷歌的同事表示,他们的新系统 Lumiere 生成的视频能呈现真实、多样且连贯的动作。
他们说:“我们展示了最先进的视频生成结果,并展示了如何轻松地将 Lumiere 适应各种视频内容创作任务,包括视频修复、图像转视频生成或生成符合给定风格图像的风格化视频。”
AI视频合成的一种常见方法是首先在视频序列中生成几个关键帧,然后使用这些图像生成中间缺失的帧。
以这种方式分解任务的优点是简化了计算要求,但也有缺点。特别是,这些系统难以渲染关键帧之间发生的快速运动。
Bar-Tal 及其团队提出了一种不同的方法,可以同时合成整个视频。他们通过训练一个AI系统来将时间和空间维度以相同的方式处理。这种时空方法允许AI同时生成整个视频输出。
这与以前的努力形成鲜明对比,以前的方法只针对空间变化进行训练,同时保持固定的时间分辨率。谷歌的时空表示法显著更紧凑,因此计算效率更高。Bar-Tal 及其团队表示:“令人惊讶的是,这种设计选择被以前的文本转视频模型所忽视。”
这个过程的关键部分是一种著名的AI技术,称为扩散,它被广泛用于生成单个图像。AI系统从一个完全由噪声组成的帧开始,然后逐步修改它以匹配其学习到的数据分布,无论是与猫、狗还是骑自行车在火星上的宇航员相关联的数据。
Lumiere 以同样的方式工作。但它不是生成一张符合特定数据分布的单个图像,而是创建一系列多达80张图像,或者更确切地说,是这些图像在时空中的表示。
然后,AI修改此表示以匹配系统通过数百万小时视频素材训练所学到的数据分布。然后,它将时空表示解包成普通视频。
结果是生成了五秒的视频序列,谷歌表示这个长度比大多数媒体的平均拍摄时长都要长。
结果令人印象深刻。给定一段文本描述,例如“一只熊猫在家弹奏尤克里里”或“飞过一座废墟中的寺庙,史诗般的,迷雾弥漫”,Lumiere 就能生成高质量的视频序列,展现出这些场景。
它还可以从一张图片开始,并根据请求对其进行动画处理。Bar-Tal 及其团队使用著名的维米尔画作《戴珍珠耳环的少女》,并让 Lumiere 对其进行动画处理,展示少女眨眼和微笑。
给 Lumiere 一张参考图片,例如梵高的《星夜》,它就会以相同的风格生成视频。给它一个视频,例如一个女孩奔跑的视频,它就可以修改它,让女孩看起来像是由鲜花或堆叠的木块构成。Bar-Tal 及其团队在线发布了大量关于Lumiere 功能的示例。
这是一项令人印象深刻的工作,并引出了一个显而易见的问题:这项技术何时能供普通消费者使用,以及成本如何。谷歌目前没有给出答案。
深度伪造担忧
但该团队暗示了日后需要解决的潜在问题。不难想象恶意行为者如何利用这种技术大规模创建深度伪造,Bar-Tal 及其团队显然对此感到担忧。
他们说:“我们的技术存在被滥用于创建虚假或有害内容的风险,我们认为开发和应用工具来检测偏见和恶意用例至关重要,以确保安全和公平使用。”
他们对谁正在或应该开发这种技术并不那么清楚。这种努力可能需要某种现实世界的事件来推动问题的解决。
但如果没有这些控制,影响已经开始蔓延。今年在美国、英国和世界上最大的民主国家印度举行的选举,已经成为这些技术如何被利用的试验场。
Lumiere 和其他类似系统将扮演的角色,尚未确定。
参考文献:Lumiere: 用于视频生成的时空扩散模型:arxiv.org/abs/2401.12945














