广告

女士们的楼上可能很适合

了解 CITAC 系统如何革新中文电脑翻译技术,以创新的方法解决翻译挑战。

Google NewsGoogle News Preferred Source

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

香港一家裁缝店里的那块招牌不是由 CITAC 翻译的,CITAC 是一种能将书面中文转换为可用英文的计算机。

广告

中文是一种最美的书面语言,也是最复杂的语言之一。它的繁复的文字在字母表发明几个世纪前就已经形成,与希腊或罗马字母毫无相似之处。而且与古埃及象形文字的图画符号不同,它们通常也不像物体。相反,每个方块状的字符代表一个词或词的一部分。这意味着需要大量的字符——大约 50,000 个,其中中国人至少需要认识 2,000 个才能阅读晨报。更复杂的是,这些字符之间没有空格,因此很难分辨一个词在哪里结束,另一个词在哪里开始。字符串通常从左到右横跨页面,但有时,尤其是在较旧的文本中,它们会从上到下或从右到左排列。

因此,能够毫不费力地阅读中文甚至将其翻译成英文的人类存在,证明了人脑的巨大复杂性。这似乎不是一项可以放心地交给计算机的任务。然而,上海出生的 Julius Tou(直到最近退休前,他是佛罗里达大学盖恩斯维尔分校的电气工程师)表示,他已经做到了:经过数十年的努力,他开发了一个计算机系统,可以将书面中文翻译成语法正确且符合习惯的英文。Tou 表示,他的系统 CITAC(中文翻译计算机)比专家级人工翻译更快,尽管精度略逊一筹。该系统目前售价 15,000 美元,由一台配备专用硬件和软件的个人计算机组成。

68 岁的 Tou 最近的成功可以追溯到 40 年前。在 20 世纪 50 年代,计算机科学家和军方都热衷于开发能将主要语言翻译成英文的程序。但其复杂性很快就显得难以克服。例如,当时开发的一个中英翻译程序会翻译单个字符,几乎毫无用处。一个应该翻译为“他鲁莽驾驶”的十个字符的句子,被计算机翻译为“他打开汽车不管理三个七二十一个”。到 20 世纪 70 年代初,军方停止了对该研究的资助,几乎所有人都放弃了计算机翻译,包括 Tou。

事实证明,当时需要的是现在被视为理所当然的廉价计算能力。还需要教会计算机像人类一样看待语言,并识别动词、形容词、名词等等的方法。从 20 世纪 80 年代开始,这些先决条件开始到位。研究人员开始建造能够将包括西班牙语、德语、希伯来语和希腊语在内的许多主要语言翻译成英文的机器。

大约十年前,Tou 决定再次尝试中文——这次他成功了。他说,最困难的部分之一是教会计算机如何从汉字流中识别单词。解决方案是一个巧妙的搜索策略。

由于很少有中文单词超过六个字符,CITAC 从句子中的前六个字符开始。它使用前三个字符作为密钥,扫描其内置的 40,000 个单词和习语词典。如果这三个字符本身就是一个单词,它就会将其放入单词缓冲区。如果它们可能是更长单词或短语的开头,它会逐个添加接下来的三个字符,看是否能匹配词典中的内容。如果 CITAC 找不到匹配项,它会检查前两个字符,看它们是否构成一个单词。如果不是,它就假定第一个字符本身就是一个单词。然后,它使用字符 2、3 和 4 作为搜索三元组重新开始该过程。

当 CITAC 遇到歧义时——一组字符可能是一个完整的单词,也可能是单词或短语的开头——它会将较长的字符串放入一个临时单词缓冲区。然后,在完成整个句子的划分后,它会回过头来确定哪种可能性在上下文中更有意义。这有助于它避免过于字面化的翻译,例如“他打开汽车不管理三个七二十一个”。在这个十个字符的句子中,每个字符都对应一个英文单词;但后七个字符合在一起(不管理三个七二十一个)的意思是“鲁莽地”。(这并不是说它们是一个奇怪的中文习语;这些字符的总和是一个与各个部分无关的单词。)

一旦计算机完成了句子的处理,并将找到的单词和短语吐入缓冲区,它就会定义它们,然后用英文等价物替换它们。然后,利用字符在句子中的相对位置,它识别出对应于主语、谓语、宾语等的单词。接下来,它会重新排列它们,将中文语序转换为英文语序。句子“他是日本说非常流利”变成了“他会说日语非常流利”。

最后,CITAC 对文本进行润色。它添加了前缀、后缀、冠词、动词变位和复数形式(中文通常省略这些)。“他会说日语非常流利”变成了“He speaks Japanese very fluently”。CITAC 甚至知道在没有动词的情况下插入动词。“她美丽”在中国是可以接受的,但 CITAC 添加了“is”使其成为一个可接受的英文句子。

广告

CITAC 翻译的英文有多么可接受?Tou 承认,CITAC 目前还无法很好地翻译毛泽东的文章。但是,他说,它可以在报纸上做得令人称道。Tou 认为,在商务信函方面,它会更有效,因为文本可以针对 CITAC 进行优化。一个写给美国同事的中国人可以移除一些地雷——例如 CITAC 无法识别的特殊专有名词——否则这些专有名词会将句子变成无意义的乱码。他还可能添加中文中只有暗示的动词、修饰语和代词,以确保句子包含其英文对应物的全部要素。他甚至可以定制基本词典,添加他业务中经常使用的字符、名称、单词和短语。

Tou 目前正在开发 CITAC 的伴侣程序,该程序可以将英文翻译成中文,从而让美国人能够回复来自中国的信件。他还希望 tackling 翻译口语中文这个更困难的问题。他说:“我觉得我已经为世界做出了贡献。但我想让人们在 2000 年前能够用自己的母语交流。”

广告

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章