此刻,维克托·祖(Victor Zue)的电脑就放在他麻省理工学院计算机科学实验室的桌子上——但他预计它不会在那里待太久。电脑已经开始大幅缩小,同时数量却在成倍增加。祖预测,短短两年内,它们将真正从桌面上“掉下来”。他相信,微小但功能强大的电脑很快就会嵌入办公室和家中的墙壁里,嵌入看起来像手机的手持设备中,甚至嵌入最普通的电器中。你可能已经读到,不久的将来,冰箱将能够提醒你哪些物品即将用完。而你可能没有读到的是,它还将在互联网上为你订购。你已经可以告诉一辆豪华汽车你的旅行目的地——如果它有合适的选配——它将为你逐向导航。甚至连不起眼的闹钟也将很快发展出计算机辅助的态度:连接到互联网后,它将能够检查你的日程安排,与交通报告进行交叉比对,并决定何时叫醒你。祖说:“比我们用这些电脑做的事情更值得注意的是我们与它们互动的方式。我们不会再使用键盘打字。相反,我们将和它们对话。”
而它们也将与我们对话。会说话的电脑长期以来一直是一个难以实现的目标,与其说它与科学有关,不如说与好莱坞有关,那里的原型是《2001:太空漫游》中的HAL。但随着电脑变得越来越普遍,与它们交流仍然很困难,那些与键盘搏斗过或在语音邮件树中拨号陷入困境的人深知这一点。如果电脑能被编程来与人类对话,这些问题就会消失。
麻省理工学院计算机实验室的副主任祖说:“语音是人类交流中最简单、最快速的形式。如果我们能和电脑对话,那么几乎任何人都可以使用它们,完全不需要任何培训。”
我们的工作和个人生活将因此彻底改变。
不久前,计算机还是由大量真空管、电线、电阻器和电容器组成的庞大集合。1946年为美国陆军建造的第一台通用电子数字计算机,用于计算弹道表格,重逾30吨,包含超过17000个真空管。由于其昂贵和笨重的尺寸,早期的计算机——后来被称为大型机——服务于许多人。每个通过终端连接到计算机的人都必须争夺使用时间。20世纪70年代末个人电脑的出现最终将方程式重新排列为计算机与人1比1的比例。现在,这个方程式再次发生变化,很快比例将变成每个人拥有多台计算机。
小型但功能强大的互联网连接计算机很快将取代PalmPilot和无线连接到网络的手机等个人数字助理。IBM无处不在的计算实验室Planet Blue的项目总监迈克·格林伍德(Mike Greenwood)正在争分夺秒地创建软件,使新一代计算机能够相互连接。他预计,在未来10到20年内,“超过100万家企业和10亿人将通过1万亿个手持和嵌入式设备连接起来。”
随着设备的缩小,数据输入的问题也随之增加。祖说,即使是适合装进口袋的无线键盘也会小到“你必须用牙签在上面打字”。
除了语音,别无选择。“有各种各样的趋势使其变得可取,”IBM语音技术研究经理大卫·纳哈穆(David Nahamoo)说。“会说话的电脑听起来很可爱,但这并非新奇或噱头。它至关重要。”
水星旅行社(Mercury Travel Service)打来电话的女士似乎很友好——如果说她异常耐心的话——祖正在查询从波士顿到旧金山的航班时刻表。“明天飞机几点起飞?”他问道,连珠炮般地抛出问题。“下午有没有返回波士顿的航班?航班号是多少?几点抵达?”对于每一个问题,平稳的声音都给出了快速而愉快的答复。两分钟内,祖已经掌握了足够的信息来预订航班。除了交易速度之快,令人惊讶的是这位水星旅行社的代理人并非人类,而是祖亲自编程的、能识别人类语音的电脑。“对于一台电脑来说,算不上一个糟糕的健谈者,你不觉得吗?”他挂断电话后说道。
这种流利程度对计算机和祖本人来说都来之不易,祖本人也曾努力学习会话英语技能。祖出生在中国,20世纪60年代末,为了离已搬到美国的姐姐们近一些,他来到佛罗里达大学读书。“为了被接受,我想学会像美国人一样说话——但这非常困难,”他说。像“did you”这样的词,他可以在课本上轻易读懂,但当他听到它们被说出来时,却突然变成了难以理解的“didju”。他回忆说,无论走到哪里,他都发现自己被莫名其妙的发音规则弄得一头雾水。
祖的灵感火花,讽刺的是,来自好莱坞。1968年,在英语学习取得来之不易的进步后,他去看《2001》,并被会说话的电脑HAL深深吸引。“我看到它后说,‘就是这个——这就是未来,’”他回忆道。“如果我能学会所有不同的发音规则,那么电脑也能。”他下定决心要找到一种方法,于是前往麻省理工学院读研究生。他知道,电脑可以被教导“听到”正在说的话,但这不仅仅是连接一个麦克风那么简单。“因为口音和单词的发音方式,耳朵是一种非常糟糕的语言解码器——无论是对外国人还是对电脑来说,”祖说。“相反,我当时寻找的是语音的视觉表示。”
他最终得到的是声谱图——语音声音的电子描绘。以前没有人能够“阅读”声谱图,但祖——每天练习一小时,坚持四年——证明了这是可以做到的。然后他推论他可以教电脑从 spoken voice 中获取与声谱图相似的频率读数,这已被证明是一种可靠的语音编码方式。“它本质上是将人类语言翻译成计算机能够理解的语言,”祖说。
语音识别的核心是音素,它是基本的语音构成单元。它很短——通常总共不到100毫秒——但这足以将“b”音改为“p”,并将单词“bit”改为“pit”。为了理解语音,计算机将说出的单词翻译成这些音素的电子表示,然后将它们与显示实际单词和单词簇的模板进行匹配。“它在传入测量值和存储的声音测量值之间找到最佳匹配,”祖说。计算机考虑它“听”到的内容,然后选择最可能的含义——就像祖第一次学习英语时所做的那样。“基本上,我把机器当作一个对语言陌生的人,”他说。他编写的软件程序虽然庞大,但无非是语法课程和发音指导:“你将语法规则逐一教给计算机,就像学生从幼儿园到高中学习一样。”
当审视语言中充斥的一些怪异之处时,这一挑战的范围变得清晰起来——首先是同音异义词。“我们说‘there’,”祖说。“但我们是指‘there’、‘they're’还是‘their’?”此外,同一个字母根据其在单词中的位置可能发音不同。例如,单词“top”、“try”、“city”和“button”中的“t”发音截然不同,计算机需要被告知这一点。很多时候,理解别人说了什么唯一的方法是记住之前说了什么。例如,祖说,一次口语对话中可能包含“How about Japanese?”这句话。这可能是指货币或语言,“直到你记住讨论的是午餐去哪家餐厅,”他说。“只有结合之前所说的话,这句话才有意义。”
有时,词语的发音可能会被截然不同地解释——导致语言上的滑稽误解,比如当“安乐死”(euthanasia)被读成“亚洲青年”(youth in Asia),或者“识别语音”(recognize speech)变成了“毁掉一个美丽的海滩”(wreck a nice beach)。雪上加霜的是,字母组合的发音也会因其出现位置而不同。例如,祖说,单词“gas shortage”(汽油短缺)发音为“ga-shortage”,其中“gas”中的“s”音被“shortage”中的“sh”音吞噬了。“但同样的规则不适用于单词‘fish sandwich’(鱼肉三明治)。你必须清楚地发出‘sh’和‘s’音;如果你说‘fi-shandwich’,你听起来就会像个外国人。”
然而,大多数这些问题都通过语法指令得到了克服,而已经存在十多年的听写软件程序的错误率大约是每句话一个词。祖说,这听起来可能不坏,“但如果你是打字员,肯定会被解雇。”
此外,为了进行对话,计算机不仅要转录所朗读的内容,还必须对问题提供智能回复。“计算机不能思考,但它可以获取信息,”祖说。而计算机可以连接到所有信息存储库的鼻祖——互联网。对于水星旅行社,祖的计算机将口头问题翻译成数字代码,然后搜索互联网以获取最新答案。从那里,过程逆转——计算机说出答案。
除了水星系统,祖在麻省理工学院实验室开发的其他两个原型系统也将连接到互联网进行实时数据搜索:旅行者(Voyager)将提供波士顿交通状况的最新信息,木星(Jupiter)将提供500个城市的天气详情。目前,这些系统彼此之间无法通信。因此,询问水星系统天气情况的呼叫者会得到“抱歉,我不明白你的问题”的答复。但针对航空旅行的问题将立即得到回答。“我们正在构建在狭窄领域内具有非常出色能力的系统,”祖说。“现在的挑战是将这些系统拼接在一起——就像制作被子时的小块布料一样——以便有一天人们可以在不同领域之间流畅地导航。”
随着这块“被子”不断扩大,我们所知的计算将发生巨大变化,人们将能够随时随地即时获取他们想要的任何信息。有些人已经使用手机查看电子邮件或获取即时股票行情,两年内,语音识别将开始消除使用手机上微小按键作为键盘的需求。老式录像机将在未来几年内被“黑匣子”取代,它们将通过互联网搜索电视节目列表,并找出要录制的节目的日期、时间及频道。当加入语音识别功能后,定制个人观看时间表将变得像发出语音命令一样简单,例如,命令录制所有烹饪节目或棒球比赛。最终,语音技术将通过将计算机变成热心的助手而非仇敌,彻底改变人们的日常生活。“语音功能将对计算机产生像网景导航者对互联网所产生的影响,”罗格斯大学高级信息处理中心主任詹姆斯·弗拉纳根(James Flanagan)说。“它将普及那些目前对普通人来说过于困难的事物,并将永远重塑我们与计算机互动的方式。”
再往后看,一个单一的、小型“计算设备”将会出现,这是一个语音控制的设备,可以通过下载不同的软件,编程成你想要的任何东西——从手机到个人数据助理,再到数字摄像机。“没有人能百分之百确定语音识别的未来走向,但我要告诉你一件事,”弗拉纳根说,“我们将需要一个非常大的垃圾填埋场来容纳所有它将淘汰的电子设备。”
许多人认为,这其中也包括电脑键盘。“我确信它将在五到十年内完全消失,”微软Speech.Net Group总经理黄学东(Xuedong Huang)说。自1993年以来,该集团已将语音启用计算作为其首要任务之一。“我敢打赌,五十年后,人们会回顾我们费力地在键盘上输入指令的场景,然后哈哈大笑。他们会问:‘你的意思是,你必须一个字一个字地打出来吗?一个字母一个字母地打?’他们会觉得这非常非常滑稽!”
或许如此,但其他人则更为谨慎。“就我个人而言,我无法想象不使用键盘,”惠普互联网和移动系统实验室主任加里·赫尔曼(Gary Herman)说。他怀疑其他人可能也有同感。“我们可能拥有启用计算机语音的能力和如何利用它的愿景,”赫尔曼说,“但在我们尝试之前,我们无法确定人们是否真的愿意这样与计算机互动。”
幸运的是,最终决定权在于人类——而非电脑。
芯片来袭!
构成现代计算机核心的微芯片有一个惊人的局限性——它是硬连线的。因此,电信号可以遵循的路径是有限的,不同的芯片必须为不同的应用而设计。“你最终得到的是用于不同用途的独立芯片——无论是用于PC、手机还是PalmPilot,”麻省理工学院计算机科学实验室副主任阿南特·阿加瓦尔(Anant Agarwal)说。“根本没有灵活性。”如果期望计算机变得更小、更不显眼、专用于单一任务且更普及,那这确实是一个很大的局限性。“你最终将不得不为100种用途拥有100个独立的设备,”阿加瓦尔说。因此,他和一支研究团队正在开发一种名为Raw的替代芯片,他说,这种芯片“将原始硬件暴露给软件系统”。Raw微处理器将不再是硬连线的,而是包含一个由许多相同的矩形阵列组成的正方形阵列,这些阵列由软件配置。当电子设备使用Raw芯片构建时,“我将不再只有手机、Palm Pilot或Walkman,”阿加瓦尔说。“相反,我将拥有一个通用的计算设备,它可以真正变成任何需要的东西。”他称之为H21的“草草了事”原型设备应该在今年晚些时候投入运行。然后,“如果我说,‘嘿,把自己变成一部手机,’”阿加瓦尔说,“它将能够通过互联网找到合适的配置软件,下载它,并配置Raw芯片内部的线路,使其具有手机的特性。” —— C.R.
水星的翅膀
人类语言充满了复杂的语音、混乱的语法和模棱两可的措辞,远非完美,当计算机加入对话时,这个问题会被放大。为了限制计算机在理解和回应人类时可能犯的错误,麻省理工学院的维克托·祖认为,我们需要针对不同主题(如天气、交通更新或旅行信息)开发不同的程序。“这些独立的领域可以拼接在一起,形成一个庞大知识库的幻觉,计算机似乎可以在不同主题之间无缝切换,”他说。以下是其中一个领域——水星旅行社(Mercury Travel Service),一个由祖和他的同事开发的航班信息服务研究原型——目前的工作方式。
1 祖通过电话(617-258-6040)拨打水星系统并提问:“从波士顿到旧金山的下一班航班何时起飞?”
2 计算机实际上并不会“听见”祖说的话。相反,它会记录他的话语,将其翻译成数字代码,并将其切分成称为音素的小片段,然后根据其共振频率进行分析。这些音素会与软件中写入的模板——真实词语的理想化模型——进行匹配。
3 利用概率统计,计算机确定一组声音对应实际单词的可能性。然后它将这些单词串联起来,排除不太可能的组合。由于使用概率,Mercury可以处理各种口音和说话风格,同时仍然捕捉问题的核心含义。
4 依赖于软件中编码的句法和语法规则,Mercury分析问题的含义,就像高中英语课的学生分析句子结构一样。
5 Mercury访问互联网,搜索各种在线数据库,就像人们在搜索引擎中输入请求时一样。在此阶段,Mercury仍处于原型阶段,仅限于祖的员工预先选定的特定航空公司网站。
6 Mercury使用语音合成器将它在互联网上找到的数字化词语序列转换为可听的语音。它的女声听起来并不像机器人,而是令人安心地像人声。这是因为它依赖于一种称为拼接(concatenation)的过程,其中一些信息片段,如航空公司名称、航班号和目的地,由真人预先录制,存储在数据库中,并由计算机根据需要拼接在一起。为了实用,这只能用于旅行计划等主题狭窄的领域。但祖说,结果“听起来完全自然。”
7 祖提出问题后,水星系统立即回复:“从波士顿到旧金山的下一班航班是美国联合航空523号航班,今天下午3:30起飞。这可以吗?” — C.R.

水星系统将语音(底部)转换为音频波形(中部),然后转换为声谱图(顶部)。语音识别软件解读声谱图中细微的模式变化,并使用概率模型识别所说的词语。

下次您旅行时,请先致电水星系统(617-258-6040)并“将您的声音捐献给科学”。该研究原型目前尚无法预订,但能够帮助您制定行程。请访问麻省理工学院计算机科学实验室语音语言系统小组的网站:www.sls.lcs.mit.edu。有关微软研究院语音技术小组工作的更多信息,请访问:research.microsoft.com/stg。














