你听过Mike吗?可能听过。Mike是一位专业播音员,如今无处不在。在网络地图服务MapQuest上,他会为你朗读你要求的任何路线指示。如果你喜欢通过电话听AOL或Yahoo!电子邮件朗读,那听到的就是Mike的声音。很快Mike可能会在电视上担任画外音,播报国家气象局的预报。但别指望在屏幕上看到Mike的脸:他不是人类。他是一个由预先录制的声音拼接而成的电脑声音——可以说是迄今为止最像人声的一个。
Mike于2001年由AT&T实验室推出,正迅速成为文本转语音(将文字转化为语音)技术的明星声音。他是AT&T庞大、多语言且不断壮大的所谓“自然语音”家族的一员。他的同伴包括说德语的Reiner和Klara;说西班牙语的Rosa;说法语的Alain;以及说英式英语的Audrey和Charles。一位名叫Crystal的美式英语播音员为最近的电影《红色星球》中的宇宙飞船提供了配音。Mike、Crystal、Reiner、Rosa:他们都只是会说话,没有实体。
合成语音既是技术的胜利,也是一个古老梦想的实现。第一台“声学-机械语音机器”于1791年由维也纳研究员Wolfgang von Kempelen推出。该机器通过一组振动的簧片模拟主要的辅音和元音发音,就像一种乐器。但直到电子学出现,机器才真正开始模仿人类的声音。在20世纪50年代,研究人员努力模拟人类声道的声学特性及其产生的共振频率,即共振峰。这种方法最终导致了可行的但机械化的结果——肯定不是公关人员会称之为“客户 ready”的那种。斯蒂芬·霍金的声音合成器是最著名的例子。这样的声音或许适合讲解宇宙历史,但你不会从它那里购买一辆二手车。“在某个时候,很明显进展太慢了,”Juergen Schroeter说,他是负责Mike项目研究的AT&T研究员。“我们的好奇心开始转向更实用的方法。”在20世纪70年代,当时还属于贝尔实验室的研究人员转向了“拼接”方法:他们不试图从头开始生成人类的声音,而是从现有的声音开始——由一位声音清晰的人说了数小时的标准英语句子——然后设计一个计算机程序来对其进行拼接和重新拼接,以说出他们想要的任何词语。“我的有些同事觉得我们放弃了更科学的方法,”Schroeter说。事实上,科学只是将重点从声学力学转移到了组合数学。
计算机程序首先将预先录制的句子解析成辅音和元音发音,称为音素——早期版本可能有50或60个。然后将音素重新组合形成新的单词。例如,录制的单词cat可以分解为音素k、ae和t,然后重新排列形成tack。这奏效了,而且比机器人语音有了明显的进步,但它不是Peter Jennings(著名新闻主播)。大约50个音素根本无法捕捉口语的细微语调。“你不能只是从一个句子中取一个元音,然后把它放到另一个句子中,”AT&T语音研究员Mark Beutnagel说。
在20世纪90年代中期,借助新一代超级计算机,AT&T的研究人员开始积累一个庞大的数字“语音仓库”的音素。计算机程序不再只有一个t音可供选择,而是可能有10000个。“拥有如此多的声音,它提供了更多的自发性,”AT&T语音合成专家Alistair Conkie说。Conkie建议将音素解析为“半音素”,以提供更精细的重组可能性。语音合成现在需要对半音素进行适当的标记——“t1”声音有10000种版本,“t2”声音有10000种版本,依此类推——然后创建一个计算机算法,将其平滑地连接成单词和句子。“我们在玩半骨牌,”Conkie说。但是从半音素组装一个简单的词,比如cat——“
k1, k2, a1, a2, t1, t2
”)——涉及到数十亿次的组合决策,并提出了一个庞大的计算机处理问题。
Conkie通常被认为是提出了一个可行的解决方案,现在称为单元选择合成。他回忆起一个古老的数学问题,即旅行推销员需要在有限的时间内访问所有50个州。如何在最大化销售覆盖范围的同时选择最便宜的路线?Conkie的解决方案是将“成本”分配给无数的半音素选择和组合。绘制出穿越半音素合唱的“最便宜”的路径,对于计算机来说就只是一个数学问题。“我们优化了单元选择的方式,使其听起来平滑、自然、富有自发性,”他说。
例如,大多数成本出现在两个半音素相遇并试图连接的地方。计算机可以测量每个半音素的音高、响度和持续时间(以毫秒为单位)并进行比较。如果它们的总能量差异很大,连接它们会产生令人不愉快的咔哒声或爆裂声,那么这个连接就被评为“昂贵”,计算机就会避免它。Conkie意识到,某些连接比其他连接的可能性要小得多:在真实的英语口语中,某些“k2”音几乎从不后面跟着某些“a1”音。这些连接也可能被认为是昂贵的,计算机可以完全避免它们。理论上,单词cat可以通过10000种方式连接“k2”和“a1”音。然而,在实践中,不到100种——一个计算机可以处理的可管理数量的选择——就可以被认为是人类声音的合理模拟。
还有许多其他棘手的问题需要解决,例如如何教发声计算机区分书面词语,如bow(作为“弓箭”中的“bow”)和bow(作为“船首”中的“bow”),或者识别减号与连字符的不同。但到1996年,Mike的基础已经奠定。
Natural Voices网站(www.naturalvoices.att.com),访客可以在那里输入一个30个单词的短语,然后听任何一个声音将其读出来,该网站此后形成了一种邪典追捧。Conkie讲述了一个网站访问者的故事,一个孩子输入了“Please excuse Johnny from school”(请原谅Johnny不上学),录下了Crystal的朗读,然后通过电话将录音播放给他的校长办公室。
尽管极力强调它们的自然性,Mike及其Natural Voices的同事们还不能完全听起来自然。在短语(“我想买一张去斯德哥尔摩的票”)中,它们可以被当作人类,尽管是一位 officious 的人类。但更长的短语,或任何稍微有些诗意或情感化的内容,都会导致奇怪而含糊的发音。“情感是我们正在研究的,”Conkie说。Beutnagel补充说:“在情感质量方面,我们受到数据库的限制。如果我们录制的是一个中性声音,你就不能期望它听起来愤怒。”
尽管如此,AT&T仍看到了合成语音的广泛应用。ReadPlease和TextAloud等软件程序允许用户通过手持个人组织者的MP3播放器来朗读电子邮件、文档甚至书籍。而且联邦法律很快将要求政府网站为视障人士启用语音功能。你不必是一个愤世嫉俗者也能想象到这项技术的黑暗用途。Mike和他的家人在晚餐时间打电话来推销东西还会远吗?
这时你可能会想:到底“Mike”是谁?如果他只是一个真实人声的重组版本,那么真正的Mike是否可以站出来?事实证明,不行。Natural Voices背后的声音人才受到合同的约束,禁止进行任何公开宣传。“如果声音人才本人出名,然后又卷入法律纠纷或其他问题,这可能会损害声音本身的完整性,”AT&T的发言人Michael Dickman说。“我们非常努力地让声音品牌与个人分开。”显然,这对于真正的Mike来说也很好。“这位演员担心,如果他的身份暴露,他将在配音行业成为一个被唾弃的人,”Dickman说。“那还差得很远。”














