随着神经网络变得越来越强大,算法已经能够将普通文本转化为图像、动画甚至短视频。这些算法引起了广泛的争议。一张人工智能生成的图像最近在一个年度艺术比赛中获得了一等奖,而 Getty Images 图片库目前正在就其认为未经许可使用 Getty 图片进行训练的人工智能艺术算法的开发商提起法律诉讼。
因此,这些系统的音乐等价物不应让人感到意外。然而,其影响却是非凡的。
谷歌的一群研究人员公布了一个人工智能系统,该系统能够将普通的文本描述转化为丰富、多样且相关的音乐。该公司已经利用著名艺术品的描述来展示这些能力,并生成音乐。
音乐数据集
文本到图像系统的关键因素是存在带有描述的大型图像数据集。这些数据集可以用于训练神经网络。然而,音乐领域并不存在类似的带标注的数据集。
但在 2022 年,谷歌研究部门公布了一个名为 MuLan 的算法,该算法能够生成音乐的文本描述。一个好的文本描述通常需要涵盖节奏、旋律、音色以及可能包含的各种乐器和人声。
现在,谷歌研究部门的 Christian Frank 和同事们利用 MuLan 为免版税音乐生成了描述性标题。然后,他们使用这个数据库来训练另一个神经网络,以实现将标题转化为音乐的逆向任务。他们将这个新算法称为 MusicLM,并展示了它如何根据任何提供的文本生成音乐,或者如何以反映标题的方式修改哼唱或吹口哨的音频文件。
评估这样一个算法是一项艰巨的任务,因为它需要一个由人类创建的、带有标注的音乐文件的黄金标准数据集。所以 Frank 和同事们创建了一个。他们请十位专业音乐家为 5500 个十秒钟的音乐片段撰写文本描述。
每个描述大约包含四句话,描述了风格、情绪、节奏、演唱者声音、乐器、不和谐音、节奏等。该团队将这个数据库命名为 MusicCap,并已将其公开,以便他人可以使用它作为黄金标准。
然后,Frank 和同事们通过查看音频质量和音乐与音频描述的贴合程度来评估 MusicLM 生成的音乐。
结果不言自明(或自奏)。为了展示该算法,Frank 和同事们为几幅著名画作提供了 MusicLM 的文本描述,并发布了生成的音乐。
以下是部分结果:

萨尔瓦多·达利《记忆的持久》(来源:维基百科)
萨尔瓦多·达利《记忆的持久》(点击收听)

爱德华·蒙克《呐喊》(来源:维基百科)
爱德华·蒙克《呐喊》(点击收听)

文森特·梵高《星月夜》(来源:维基百科)
文森特·梵高《星月夜》(点击收听)

古斯塔夫·克里姆特《吻》(来源:维基百科)
古斯塔夫·克里姆特《吻》(点击收听)
该团队已在此处发布了其他结果。
当然,该算法并不完美。一个显著的问题是,该算法会受到训练数据中存在的偏见的影响。研究人员表示,这引发了“关于音乐生成是否适合训练数据中代表性不足的文化的问题,同时,也引发了关于文化挪用的担忧”。
然后是普遍存在的挪用问题——即复制他人创作的作品。为了避免这个问题,该团队使用了无版权的开放音乐数据集。但他们也测试了输出,以查看其与输入数据的相似程度。Frank 和同事们表示:“我们发现只有极少数的例子被精确记忆,而对于 1% 的例子,我们可以识别出近似匹配。”
尽管如此,这项工作非常有趣,应该会极大地扩展创意工作者可用的 AI 工具集。不难想象,AI 系统能够创作出短片等作品,其中剧本由 AI 撰写,视频由 AI 生成,配乐由 AI 生成——所有这些都基于人类相对简短的文本输入。
这些输出最终会变得与真实视频难以区分,这是不可避免的。
谷歌尚未公开提供 MusicLM。但假以时日,肯定会有其他人创造出功能相似且公开可用的 AI。
这些电影在电影节上获奖、在社交媒体上流传并成为法律诉讼目标还需要多久?
参考:MusicLM:从文本生成音乐:arxiv.org/abs/2301.11325














