像 ChatGPT 这样的 AI 语言模型能破解神秘的古代文本吗？

大约 4000 年前，生活在印度河流域（今印度和巴基斯坦）的一个古老文明占世界人口的 10%。尽管关于这个人群的记录很少，但考古学家发现他们足够先进，拥有自己的书写系统——至今仍未破译。

这种神秘的文本被称为印度河文字，几十年来一直困扰着学者、语言学家甚至密码学家。只有几百个符号被分类，因为科学家们还没有找到一种“罗塞塔石碑”或解码这种未知语言的钥匙。但人工智能的最新进展——包括像 ChatGPT 这样的大型语言模型——可能会改变这一点，为古代文明提供更深入的见解。

揭示印度河流域文字

印度河流域文明于 20 世纪 20 年代被正式发现，直到 1999 年，其文字的第一个碎片才被发掘出来。印章、陶器甚至骨头上都刻有带有动物图案的奇怪符号。这些复杂的铭文使这一发现更具吸引力，但却使得解开这个复杂社会的秘密仍遥不可及。

阅读更多：为什么我们仍然无法解读古印度文明的文字

微软的应用机器学习科学家 Satish Palaniappan 表示：“[这些文字] 将帮助我们了解这个古代文明、他们的生活方式以及他们对世界的了解。所有这些信息目前都无法获取。”

破解印度河流域文字

Palaniappan 是许多试图破译这些文字的 AI 算法研究人员之一。根据最近发表在《PLOS》杂志上的一篇论文，他和他的同事开发了一种算法，通过寻找特定字符频率的模式来识别文本中的相似字符。然后，学者们可以利用这些字符频率来创建破译的关键。

其他古老语言，例如古埃及语，是通过多语言密钥——罗塞塔石碑——来破译的。在这种情况下，石碑将一种已破译的语言（希腊字母）与一种未破译的语言（埃及象形文字）联系起来，从而使考古学家能够破译未知语言。

由于印度河流域语言缺乏多语言密钥，这迫使像 Palaniappan 这样的研究人员创造性地寻找印度河文字与其他语言之间的联系。

他说：“随着自然语言处理技术的最新进展，特别是像 ChatGPT-3 和 ChatGPT-4 这样的大型语言模型，我们可以尝试微调或提供更多关于我们认为源自印度河文字的语言（如婆罗米文字）的背景信息。看看这些生成模型是否能发挥创意，找出每个符号的含义以及它们如何构成语言结构。”

破解印度河文字的其他努力

同样，内布拉斯加大学林肯分校的计算机学教授 Peter Revesz 也在尝试将印度河文字与其他语言联系起来。与 Palaniappan 一样，Revesz 和他的学生 Shruti Daggumati 将印度河流域文字中的字符分组，并将其与婆罗米文字和腓尼基字母中外观相似的字符进行比较，后者源于米诺斯文化。

阅读更多：古代人类最早的文字已有 20000 年历史

Daggumati 在一个关于该项目的 YouTube 视频中说：“你感觉自己就像一个考古学家和计算机科学家。你可以成为自己的印第安纳·琼斯。”

在 2018 年的一篇论文中，Revesz 和 Daggumati 根据他们使用的 AI 算法发现，印度河文字的符号与腓尼基字母的某些字符有 90% 的相似性。

Revesz 说：“我们可以将其视为青铜时代的丝绸之路。通过这些贸易路线，尺度、重量和文字的使用都有可能传播。因此，印度河流域和线性文字 A 可能有关联。我正在开发 AI 算法来帮助研究这种可能性，这将是破译印度河流域文字的关键。”

破译沃伊尼奇手稿

与印度河文字不同，一种被称为沃伊尼奇手稿的神秘中世纪晚期文本为考古学家和语言学家提供了大量的字符进行分析。这部手稿写于大约 600 年前，共有 240 页，由 25 到 30 个未知字母和字符组成。与语言并列的是，书中包含 126 张色彩鲜艳的奇特植物插图，其中 124 幅植物根据其花、叶或根部结构已被植物学识别。

对于自 1912 年发现以来一直让密码学家和语言学家感到困惑的手稿语言，尚未完成类似的过程。

南加州大学前计算机科学教授 Kevin Knight 表示：“破译沃伊尼奇手稿可能会为我们了解中世纪生活提供一些历史见解。但这并不是驱使人们去尝试破译它的原因。他们这样做是为了智力上的挑战。能够在 500 年来首次阅读和理解如此神秘的文献，那将是一件很棒的事情。”