广告

像 ChatGPT 这样的人工智能语言模型能否解锁神秘的古代文本?

诸如印度河文字和沃伊尼奇手稿之类的古代文字几十年来一直令学者们困惑。一些研究人员认为 AI 系统可以帮助揭示它们的秘密。

Google NewsGoogle News Preferred Source
这些赤陶印章显示了古印度河流域文明留下的文字和图像。图片来源:DARSHAN KUMAR/Shutterstock

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

大约 4000 年前,生活在印度河流域(今印度和巴基斯坦)的一个古老文明占世界人口的 10%。尽管关于这个人群的记录很少,但考古学家发现他们足够先进,拥有自己的书写系统——至今仍未破译。

广告

这种神秘的文本被称为 印度河文字,几十年来一直困扰着学者、语言学家甚至密码学家。只有几百个符号被分类,因为科学家们还没有找到一种“罗塞塔石碑”或解码这种未知语言的钥匙。但人工智能的最新进展——包括像 ChatGPT 这样的大型语言模型——可能会改变这一点,为古代文明提供更深入的见解。

揭示印度河流域文字

印度河流域文明于 20 世纪 20 年代被正式发现,直到 1999 年,其文字的第一个碎片才被发掘出来。印章、陶器甚至骨头上都刻有带有动物图案的奇怪符号。这些复杂的铭文使这一发现更具吸引力,但却使得解开这个复杂社会的秘密仍遥不可及。


阅读更多:为什么我们仍然无法解读古印度文明的文字


微软的应用机器学习科学家 Satish Palaniappan 表示:“[这些文字] 将帮助我们了解这个古代文明、他们的生活方式以及他们对世界的了解。所有这些信息目前都无法获取。”

破解印度河流域文字

Palaniappan 是许多试图破译这些文字的 AI 算法研究人员之一。根据最近发表在《PLOS》杂志上的一篇论文,他和他的同事开发了一种 算法,通过寻找特定字符频率的模式来识别文本中的相似字符。然后,学者们可以利用这些字符频率来创建破译的关键。

其他古老语言,例如古埃及语,是通过多语言密钥——罗塞塔石碑——来破译的。在这种情况下,石碑将一种已破译的语言(希腊字母)与一种未破译的语言(埃及象形文字)联系起来,从而使考古学家能够破译未知语言。

由于印度河流域语言缺乏多语言密钥,这迫使像 Palaniappan 这样的研究人员创造性地寻找印度河文字与其他语言之间的联系。

他说:“随着自然语言处理技术的最新进展,特别是像 ChatGPT-3 和 ChatGPT-4 这样的大型语言模型,我们可以尝试微调或提供更多关于我们认为源自印度河文字的语言(如婆罗米文字)的背景信息。看看这些生成模型是否能发挥创意,找出每个符号的含义以及它们如何构成语言结构。”

破解印度河文字的其他努力

同样,内布拉斯加大学林肯分校的计算机学教授 Peter Revesz 也在尝试将印度河文字与其他语言联系起来。与 Palaniappan 一样,Revesz 和他的学生 Shruti Daggumati 将印度河流域文字中的字符分组,并将其与婆罗米文字和腓尼基字母中外观相似的字符进行比较,后者源于米诺斯文化。

广告

阅读更多:古代人类最早的文字已有 20000 年历史


Daggumati 在一个关于该项目的 YouTube 视频中说:“你感觉自己就像一个考古学家和计算机科学家。你可以成为自己的印第安纳·琼斯。”

广告

在 2018 年的一篇论文中,Revesz 和 Daggumati 根据他们使用的 AI 算法发现,印度河文字的符号与腓尼基字母的某些字符有 90% 的相似性。

Revesz 说:“我们可以将其视为青铜时代的丝绸之路。通过这些贸易路线,尺度、重量和文字的使用都有可能传播。因此,印度河流域和线性文字 A 可能有关联。我正在开发 AI 算法来帮助研究这种可能性,这将是破译印度河流域文字的关键。”

破译沃伊尼奇手稿

与印度河文字不同,一种被称为 沃伊尼奇手稿的神秘中世纪晚期文本为考古学家和语言学家提供了大量的字符进行分析。这部手稿写于大约 600 年前,共有 240 页,由 25 到 30 个未知字母和字符组成。与语言并列的是,书中包含 126 张色彩鲜艳的奇特植物插图,其中 124 幅植物根据其花、叶或根部结构已被植物学识别。

对于自 1912 年发现以来一直让密码学家和语言学家感到困惑的手稿语言,尚未完成类似的过程。

广告

南加州大学前计算机科学教授 Kevin Knight 表示:“破译沃伊尼奇手稿可能会为我们了解中世纪生活提供一些历史见解。但这并不是驱使人们去尝试破译它的原因。他们这样做是为了智力上的挑战。能够在 500 年来首次阅读和理解如此神秘的文献,那将是一件很棒的事情。”

AI 能破解这些古代文本吗?

Knight 和其他学者认为,该手稿是用密码写成的,甚至可能是字谜,这使得破译它更加困难。对 Knight 来说,这正是 AI 算法可能派上用场的地方。

Knight 说:“如果我给你看一段长密码,你可能会注意到‘P’后面总是跟着‘D’。你可能会猜测‘P’和‘D’分别代表‘Q’和‘U’,因为英语中的 QU 是这样工作的。一旦你知道‘D’代表‘U’,你可能会寻找与‘U’相关的模式。计算机可以比人更快、更好地完成这种推理。”

然而,沃伊尼奇手稿中编码的中世纪语言可能是英语、法语或拉丁语的 古老版本,这使得破译更加棘手。Knight 继续利用 AI 算法尝试破译沃伊尼奇手稿,但仍在确定它是否能通过当前版本的 AI 模型(如 ChatGPT)来解决。

广告

Knight 说:“总的来说,GPT 擅长执行不需要用铅笔和橡皮擦进行反复试验的直接任务。例如:加数字、翻译句子、数单词、写一篇关于 X 主题的文章等等。它不擅长解决复杂的谜题。但当然,未来的 GPT 版本很可能会学会做这些事情。”

沃伊尼奇手稿和印度河文字是目前最复杂的语言谜题中的一部分。因此,世界各地的许多学者无疑将焦虑地等待 AI 的进步,这些进步可能会帮助揭开这些古代文本背后的奥秘。

广告

阅读更多:数学家如何破解黄道带杀手的密码


保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章