广告

是人说话还是电脑说话?谷歌模糊了界限

了解 Tacotron 2 语音合成,这个谷歌文本转语音项目彻底改变了类人语音生成。

Google NewsGoogle News Preferred Source
图片来源:Viktorus/Shutterstock

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

Siri 和 Alexa 表现不错,但没有人会把它们误认为是人类。然而,谷歌的最新项目可能会改变这一点。

广告

这个名为 Tacotron 2 的最新尝试,旨在让电脑像人一样说话,它建立在该公司最近的两个文本转语音项目的基础之上,即最初的 Tacotron 和 WaveNet

跟我重复

Tacotron 2 将其前身在文本映射方面的能力与 WaveNet 在语音方面的优势结合起来,最终产生的结果坦率地说有点令人不安。它的工作原理是获取文本,并根据对实际人类语音片段的训练,将音节和单词映射到声谱图(音频波的视觉表示)。然后,这个声谱图再通过基于 WaveNet 的声码器转换成实际的语音。Tacotron 2 使用的声谱图可以处理 80 种不同的语音维度,谷歌表示这足以重现单词的准确发音以及人类语音的自然节奏。研究人员在发表在预印本服务器 arXiv 上的一篇论文中报告了他们的工作。

大多数电脑语音程序使用一个音节和单词库来构建句子,这被称为串联合成。当人类说话时,我们会根据上下文广泛地改变发音,这使得电脑语音缺乏活力。谷歌正试图摆脱单词和声音的重复,不仅根据构成句子的单词来构建句子,而且还根据这些单词的含义来构建句子。该程序使用一个由相互连接的节点组成的网络,这些节点连接在一起以识别语音中的模式,并最终预测句子中接下来会是什么,从而有助于平滑语调。

研究人员在网上发布的大量示例支持了他们的说法。WaveNet 听起来准确但有点平淡,而 Tacotron 2 听起来很充实,变化多端得令人印象深刻。

该程序还可以轻松处理复杂的多音节词,并且可以被指示对单词或音节增加重音以改变对句子的解释。这意味着 Tacotron 2 可以将语句表达成疑问句,正确区分同音异义词,以及更细微的事情,例如通过对某个词增加强调来突出句子的主语。

最后的、也是最引人注目的测试是人类声音和电脑声音的并排比较。研究人员表示,在一项流行的语音质量测试中,Tacotron 2 得分为 4.53,而专业录音语音的得分为 4.58。

尽管该程序令人印象深刻,但它仍然有一些缺陷。它无法为语音注入任何情感,而且目前还不够快,无法实时生成音频。

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章