广告

人工智能将文本转化为视频和3D模型

文本到视频和文本到 3D 模型服务可能会在未来几个月内席卷网络,但这一突破引发了关于偏见、问责制和透明度等重要问题。

Google NewsGoogle News Preferred Source
图片来源:metamorworks/Shutterstock

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

文本到图像生成器在近几个月席卷了网络。这些人工智能系统将文字描述转换为图像。因此,输入“一名宇航员骑着一匹白马”,系统就会生成一幅图像,嗯,就是一幅宇航员骑着一匹白马的图像。

广告

最早的此类服务之一——由 OpenAI Initiative 开发的 DALL-E——于去年年初出现,生成了相当不错的图像。但此后的进展令人瞩目。今年早些时候推出的 DALL-E 2 生成了更高分辨率、逼真度惊人的图像。其他系统看起来同样令人印象深刻。

然而,由于其偏见和滥用潜力,这项技术引起了争议。例如,要求 DALL-E 2 生成医生图像,它会显示一名身穿白大褂的男性。要求它生成护士图像,它会一成不变地生成一名女性图像。

但是,与技术本身相比,解决偏见和防止滥用的方法进展缓慢。这引发了对更先进的人工智能系统可能带来的挑战的疑问。

机器偏见

来自 Google Research 和 Meta AI 的两支研究团队开发了下一代文本到图像机器。谷歌的系统将文本转换为虚拟 3D 对象,而 Meta 的系统则将文本转换为短视频。

这些方法开辟了广泛令人兴奋的新应用,科技公司热衷于探索。但与此同时,这些方法引发了关于偏见、社会规范、深度伪造和问责制的重要问题,而这些科技公司在解决这些问题方面似乎不太开放。

文本到图像生成器之所以成为可能,是因为可以从网络上抓取大量带注释的图像数据集。这些数据集由具有准确文本描述的图像组成,说明了它们显示的内容。

OpenAI Initiative、谷歌和其他公司利用这些数据集来训练人工智能系统,学习单词和短语描述的图像类型,然后仅根据文本描述创建全新的图像。八月,由名为 Midjourney 的人工智能系统创建的图像在科罗拉多州艺术博览会上赢得了一个奖项,引发了争议,击败了所有人类艺术家。

现在,这项新工作更进一步。Google Research 的 Ben Poole 和同事开发了一个名为 DreamFusion 的人工智能系统,该系统使用文本字符串来生成虚拟 3D 模型。 他们在此处展示了许多示例。

一种方法是使用大型带注释的 3D 模型数据库来训练人工智能系统,使其能够将单词与模型关联起来。然而,这种规模足够大的数据库并不存在。

广告

因此,Pool 和同事从一组图像开始,教会系统如何使用它们来创建 3D 模型。通过使用文本到图像生成器来创建输入图像,DreamFusion 可以将其推断为 3D 模型。

Poole 和同事说:“给定文本生成的 3D 模型可以从任何角度查看,通过任意照明进行重塑,或者合成到任何 3D 环境中。”

广告

他们指出,电脑游戏和其他数字媒体依赖于数千个需要手工生成的 3D 模型。DreamFusion 应该会立即使这个过程更快、更高效、更便宜。由此可以预期数字世界的爆炸式增长。

Uriel Singer 和 Meta AI 的同事开发了一个名为 Make-a-Video 的系统,该系统可以将文本转换为短视频。 可以轻松想象,这可以通过一个包含视频及其文字描述的大型数据集来完成。

内容创作

但同样,这种数据集不易从网络上抓取或手动创建。因此,Singer 和同事转而向他们的人工智能系统传授现实世界中事物的运动规律。然后,该系统利用其学到的知识将静态图像转换为动态图像。

Make-a-Video 依赖现有的文本到图像人工智能来生成图片,然后利用其新获得的知识使其动起来。最终结果是一个短视频。

广告

这将改变内容创作者的格局。电视、电影和网络上的视频内容包含大量动画或特效,这些都严重依赖于人类内容创作者。

但 Make-a-Video AI 使这个过程变得更简单、更快捷、更便宜。它还为内容创作者提供了一个起点,让他们可以(至少在理论上)开发更详细、更令人印象深刻的效果。

所有这些都应该导致视频和沉浸式内容创建方式的根本性改变。但它也应该促使人们更加关注文本到图像系统已知的那些问题。其中第一个问题是,人工智能系统反映了它们所训练数据集中的固有偏见。这些数据集往往是西方、男性导向和白人种族的。

各个团体已经尝试纠正这些偏见,但成功程度不一。例如,OpenAI Initiative 已承认在某些文本字符串中插入“黑人男性”或“亚洲女性”等短语来纠正偏见。

广告

谷歌和 Meta AI 在如何解决这个问题方面则不那么明确。事实上,他们以存在偏见为由,拒绝向公众提供对其系统的访问权限。

但是,如果他们找到了纠正偏见的方法,他们将如何做到?公司和组织几乎没有问责制或透明度,却突然负责决定偏见的性质,决定什么构成社会规范,这难道是对的吗?

广告

人类注定要花费更多的时间在虚拟世界中。这些世界将由这样的人工智能系统自动创建。如果社会要以开放和负责任的方式决定如何解决偏见,它就需要尽快迎接挑战。


参考文献:Make-A-Video: Text-to-Video Generation without Text-Video Data : arxiv.org/abs/2209.14792 DreamFusion: Text-to-3D using 2D Diffusion : arxiv.org/abs/2209.14988

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章