对于我们那些将《星际迷航》视为技术进步的标杆的人来说,只能哀叹前往其他星系的超光速旅行的希望似乎正在以曲速速度消退,因为我们甚至连超音速旅行到法国都做不到了。但我宁愿专注于光明的一面:我们正迅速接近万能翻译器,这意味着当我最终抵达法国时,我将能够像在地球上一样轻松地进行交流。
当然,万能翻译器是一种手持设备,可以将柯克船长未来主义的简洁英语即时转换为提供蓝色饮料的某种类人外星人的语言。在访问法国时,这种设备潜在的用处是无法被夸大的,法国人口的某种类人特征在面对其原始但漂亮的语言的非母语者时会变成克林贡语。想象一下,当我对着我的翻译器喃喃地说:“能给我来一杯上好的加州霞多丽,让我冲淡这奶酪的臭味吗?”而设备却吐出流利的法语,服务员会多么欣喜。然后,设备会传回翻译的回应,服务员会热情地回应。
事实上,我已经拥有一件令人惊讶地接近万能翻译器的东西了,它就在我的口袋里,这是由智能手机上运行的越来越多的自动语音语言翻译服务提供的。我还不敢指望能在世界上的任何一家酒吧点到我最喜欢的蓝色饮料:“这些系统仍然会犯4岁小孩都不会犯的错误,”谷歌研究员Ashish Venugopal说,他负责谷歌的谷歌翻译服务。“但与大多数4岁小孩不同的是,谷歌有大约一万亿亿美元的资金投入到这个问题上,而且计算能力也更强。”
其中一些算力被用于24/7地浏览网络,以寻找成对的文本——在网站上、电子邮件中或任何其他地方——以及它们的其他语言的翻译。这些成对的文档被谷歌的计算机以大约三个单词的块来消化,每个块都会被分析并匹配到其最佳翻译。通过这种方式建立了一个不断增长的数百万翻译块的数据库,谷歌翻译就能应对任何句子,找到最接近的短语集,然后吐出64种语言中的任何一种的翻译。你可以访问www.translate.google.com来尝试结果。去吧,现在就去。我就在这里等着你。
效果不错,对吧?这种机器学习翻译的方法被称为统计方法,因为它涉及到在海量样本中寻找最可能的短语匹配。在过去十年中,它已成为该领域的占主导地位的模型,在很大程度上取代了人类语言学家长期以来为指导计算机而 painstaking 地制定规则列表的努力。SpeechGear公司(一家位于明尼苏达州北菲尔德的机器翻译公司)的首席执行官Robert Palmquist指出,统计方法的显著优点是简单性。“一种统计系统所需开发时间只有基于规则的系统的大约三分之一,”他说,“而且它更容易适应不断变化的词汇。”随着计算能力的降低,统计系统将能够消化更大的单词块,从而提高准确性。
现在再加上一个能够识别语音的系统——这也是统计驱动的,只是它处理的是音素或语音片段,而不是书面单词——再加上多年来让我们恼火的各种发声设备中的文本转语音功能,你就拥有了一个能够即时翻译口语的完整系统。谷歌在智能手机上免费提供谷歌翻译的会话模式,SpeechGear、IBM、SayHi Translate和Jibbigo也提供收费的手机、平板电脑或其他设备服务。
我强迫几位其他语言的母语者与我面对面地进行谷歌调解的对话。我会对着我的手机说一些聪明的话,然后把手机塞到对方脸上,让他立即听到翻译。然后手机会将我不情愿的伙伴的非英语回复翻译成英语。结果如何?效果还行。一旦手机翻译器的惊喜感消失(大约需要12秒),缺点就开始显现。“它很好,但它没有识别出所有单词,也没有把它们按正确的顺序排列,”上海高中交换生Tony Liu在听了谷歌将我的英语翻译成他的汉语,以及反向翻译的努力后说道。
为了提高准确性,一些翻译工作,包括SpeechGear公司的,正在将统计方法与基于规则的系统相结合。“统计系统在处理歧义时很吃力,比如‘He was safe at home’,”Palmquist说。“基于规则的系统可以更容易地被告知检查上下文是否是一个棒球比赛。”基于规则的系统还需要更少的计算能力和存储空间。谷歌的服务只有在你拥有良好的数据连接时才有效,因为它会在你的手机和位于奥林匹斯山的谷歌服务器之间来回传输每一个单词,而服务器会完成所有的繁重工作。
“统计系统需要网络连接才能访问几GB的数据,”普渡大学工程学教授Mireille Boutin说。“但如果你在旅行,没有网络连接怎么办?”
Boutin领导的一个小组正在解决这个相当大的限制,他们开发了一种完全在手机上运行的翻译器,无需连接。为了保持系统紧凑,它专门设计用于翻译与餐厅点餐相关的对话。这比听起来要难,因为菜肴的名字经常难以翻译。例如,“西班牙海鲜饭的配料会因国家、地区和季节而异,”Boutin指出。“一个在另一种语言中只有一个单词的菜名,可能需要10个单词来翻译。”
但随着数据连接的不断改善,统计方法越来越受欢迎,并且正在推出许多方案来改进统计技术。一家公司正在建立一个系统,利用那些为少量报酬或免费在线做事的人的翻译技能,或者正如领先的科技公司小心翼翼地称之为,众包。
纽约Translation Services USA公司的首席执行官Alex Buran在一年前萌生了一个想法,邀请访问他公司网站的人编辑或批准公司机器翻译引擎处理的小块文本。如果另外两名或更多访客批准了其中一个文本块,它就会进入引擎的数据库,成为新的首选翻译。引擎会变得更好,而获胜的翻译者会得到10美分或更多的奖励。(序列翻译者的平均收入约为每小时11.50美元。)“我们相信,我们将使机器翻译结果如此准确,以至于最终取代人工翻译,”Buran说,并补充说,今天有大约7500人在努力工作。
然而,机器翻译者和他们的人类对应者之间的差距可能永远无法完全弥合。“这些程序无法解读肢体语言或语气,也无法处理新的俚语或不寻常的方言变体,”美国国家标准与技术研究院的机械工程师Craig Schlenoff说,他曾评估过美国士兵在阿富汗用于“敲门谈话”(拜访当地居民以收集情报和改善关系)的翻译软件。“而IBM语音到语音翻译研究小组负责人Bowen Zhou指出,有些情况需要翻译的微妙之处,机器在短期内不太可能掌握。“国家元首的演讲需要特定的措辞来传达预期的情感和信息,”他说。“而法律文件包含经过精心构建的、具有特定含义的条款。”
就我个人而言,我很高兴听到这个消息。因为这意味着我那不完美的翻译手机真的就像《星际迷航》中的版本一样。正如柯克本人对万能翻译器所说:“当然,并非100%有效。但从来没有什么事情是100%的。”
David H. Freedman是一名自由记者、作家,也是DISCOVER杂志的长期撰稿人。你可以在Twitter上关注他:@dhfreedman。















