谷歌的 DeepMind 创造出的人工智能系统,它们能够像人类一样——不,是比人类更擅长——玩 Atari 经典游戏和复杂的围棋。
现在,这家人工智能研究公司又一次出手了。这一次,它们制造的机器在模仿人类声音方面变得非常出色。
在本周四的博客文章中,DeepMind 发布了 WaveNet,据该公司称,这是一种人工智能系统,其性能比现有的文本到语音技术高出 50%。WaveNet 从原始音频文件中学习,然后产生数字声波,这些声波类似于人声产生的声波,这是一种截然不同的方法。
其结果是更自然、更流畅的声音,但这还不是全部。由于 WaveNet 使用原始音频波形,它可以模拟任何语言的任何声音。WaveNet 甚至可以模拟音乐。
而且它做到了。它在钢琴演奏方面相当不错。自己来听听。
开口说话
总有一天,人类和机器将能例行地进行对话。我们还没有到那一步,但自然语言处理是人工智能研究的一个炙手可热的领域——亚马逊、苹果、谷歌和微软都在追求能够通过语音帮助我们与设备交互的智能数字助手。
目前,由于深度学习算法将语音识别提升到了新的水平,计算机的听力已经相当不错了。但计算机的口才仍然不太好。大多数文本到语音系统仍然基于拼接式 TTS——基本上是从庞大的声音片段数据库中拼凑单词。
其他系统则基于发音规则,以电子方式生成声音。这两种方法产生的声音都比较像机器人。WaveNet 则不同。
展示计算能力
WaveNet 是一种人工神经网络,至少在理论上,它类似于人脑的结构。数据输入通过互连节点(“神经元”)的层流动,产生输出。这使得计算机能够处理海量数据,并识别出可能需要人类一生才能发现的模式。
为了模拟语音,WaveNet 被输入了真实的英语和普通话语音波形。这些波形包含大量数据点,每秒大约有 16,000 个采样点,WaveNet 会消化所有这些数据。
然后,为了生成语音,它逐个采样点地组装音频波形,利用统计学来预测下一个要使用的采样点。这就像一次只用一毫秒的声音来组装单词。DeepMind 的研究人员随后通过添加语言规则和建议来完善这些结果。没有这些规则,WaveNet 生成的对话听起来就像摘自《模拟人生》电子游戏。
这项技术需要大量的计算能力,但结果相当不错——WaveNet 甚至可以生成呼吸和嘴部动作等非语音声音。在盲测中,英语和普通话母语者表示,WaveNet 的声音比谷歌现有的任何文本到语音程序都更自然。然而,它仍然落后于真实的人类语音。DeepMind 团队发表了一篇论文,详细介绍了他们的结果。
根据《彭博社》记者 Jeremy Kahn 的说法,由于这项技术计算成本极高,我们可能不会立即在设备上看到它。
尽管如此,人机对话的未来听起来相当不错。














