今天世界上将近一半的人口说印欧语言,其起源可以追溯到几千年前的同一种母语。英语、俄语、印度斯坦语、拉丁语和梵语等截然不同的语言都可以追溯到这种祖先语言。
在过去的几百年里,语言学家们对第一批印欧语言了解了很多,包括它使用的大量词汇以及一些语法规则。在此过程中,他们提出了关于其最初使用者是谁、他们生活在何处以及如何生活、以及他们的语言如何广泛传播的理论。
大多数语言学家认为,这些使用者是大约6000年前居住在乌克兰和俄罗斯西部草原上的游牧牧民。然而,少数人认为其起源更早2000到3000年,是在安纳托利亚(现代土耳其地区)的一个农民社区。现在,一项借用进化生物学技术的新分析支持了后一种观点,尽管草原在后期也发挥了重要作用。
新分析中使用的计算技术在语言学家中争议很大。但其支持者表示,它有望为该领域带来更严格的定量分析,并可能将关键日期推向更远的过去,就像放射性碳定年在考古学领域所做的那样。
“我认为语言学可能会迎来一场类似于放射性碳革命的变革,”秘鲁天主教大学的历史语言学家、这项新研究的合著者保罗·赫格蒂(Paul Heggarty)说;他在2021年的《语言学年度评论》中描述了这种计算方法。
揭示死语言
要理解正在发生的事情,有助于了解印欧语言研究是如何发展的。
16世纪,随着旅行和贸易使欧洲人接触到更多外国语言,学者们对语言之间的关系以及它们的起源地越来越感兴趣。
在18世纪末,印度的一位英国法官威廉·琼斯爵士注意到梵语、拉丁语和希腊语在词汇和语法上的相似之处,这些相似之处不可能是巧合。
历史语言学家已经重建了印欧语系祖先的大部分语法和词汇,以至于我们可以拼凑出对话可能听起来的样子。打开字幕,可以看到此处呈现的重建的翻译。
图片来源:AB ALPHA BETA
例如,英语单词“father”在梵语中是“pitar”,在拉丁语和希腊语中是“pater”。“Brother”在梵语中是“bhratar”,在拉丁语中是“frater”。虽然琼斯实际上并不是第一个注意到这些相似之处的人,但他关于必定存在共同起源的声明有助于推动一场比较语言并追溯其关系的运动。
1882年,雅各布·格林(Jacob Grimm)提出了后来被称为格林定律的重大进展。格林今天最著名的身份是格林兄弟中的一员,他们收集并出版了《格林童话》。但除了作为一位民俗学家,雅各布·格林也是一位重要的语言学家。
格林指出,随着语言的发展,语音会以规律的方式变化,这有助于理解语言之间的关系。例如,印欧语系中“二”的词是“dwo”。但是“dwo”是许多以“d”开头并在传入英语和德语的共同祖先时变为“t”的词之一。后来,“t”音在现代德语的祖先中变为“ts”。因此,印欧语系的“dwo”在英语中变为“two”,在现代德语中变为“zwei”(发音为“tsvai”)。其他以“d”音开头的词也表现出类似的规律。学者们发现了许多这样的语音变化模式,每种模式都遵循不同的规则,随着一种语言孕育出另一种语言。
除了这些语音变化,语言学家还研究词的构成方式,例如英语通过添加“s”来使词变为复数。他们还研究词的排列方式,例如英语将主语放在动词之前,将动词放在宾语之前。当然,他们也研究共享词汇。通过比较不同语言的这些特征,语言学家能够描绘出语言如何相互传承,并将它们置于显示其关系的家谱中。

格林定律描述了语言中语音变化的规律性。图表显示了印欧语系原始语中的一些语音在日耳曼语系(如英语)中如何变化,而在非日耳曼语系(如法语)中保持不变。
今天,语言学家们在印欧语系的语族划分及其相互关系的基本问题上达成广泛共识。他们同意原始语言(他们称之为原始印欧语)分为10或11个主要分支,其中两个现已灭绝。
他们也普遍同意在主要分支中如何定位语言。例如,他们知道意大利语支派生出拉丁语,而拉丁语又发展成罗曼语系,如法语、西班牙语和意大利语。日耳曼语支发展成包括德语、荷兰语和英语在内的语言。而印度-伊朗语支则产生了印地语、孟加拉语、波斯语和库尔德语等语言。
祖先的生活方式
通过追溯语言变化的源头,语言学家们推断出了原始印欧语的许多基本特征,包括一些词汇、词的构成方式以及一些发音的概念。许多语言学家认为他们甚至发现了关于第一批原始印欧人可能如何生活的线索。
例如,原始印欧语有一个表示车轴的词,两个表示车轮的词,一个表示挽具杆的词,以及一个意为“用车辆运输”的动词。考古学家知道车轮和车轴技术大约在6000年前被发明,这表明原始印欧语不可能比这更早。如果它更早——换句话说,如果它在拥有车轴和挽具杆的词之前就已经开始分裂成其他语言——那么它的子语言就不得不为这些事物创造自己的词。它们使用相同的词这一事实表明分裂是在这些技术发展之后开始的。
该语言中的其他词汇表明,第一批印欧语使用者可能熟悉马匹、牛羊放牧、乳制品、羊毛、蜂蜜和蜂蜜酒。他们似乎有首领(“reg”这个词演变为我们的英语单词“regal”),并且可能实行父权制(他们有“姻亲”的词,只适用于新娘一方的家庭,表明丈夫的家庭被认为是主要的)。
许多语言学家认为,这些词汇描绘了一幅游牧民族的图景——他们是使用马匹和马车的牧民。结合基因证据显示大约5000年前人们迅速从大草原扩散到中欧,他们得出结论,印欧语言随同这些牧民从大草原向外传播。

根据一种理论,印欧语言可能是由乘坐马车的牧民传播的,就像这个来自安纳托利亚的青铜时代早期铜制模型所示。图片来源:伊迪丝·佩里·查普曼基金,1966年 / 公有领域
然而,在1987年,剑桥考古学家科林·伦弗鲁驳斥了印欧语起源于牧民的说法。伦弗鲁认为,印欧语言的戏剧性传播需要比零散游牧民族的接触所能提供的更大的推动力。伦弗鲁认为,要实现一种语言主导从爱尔兰到印度广大区域的重大转变,需要一种更强大的力量。
他在农业的传播中找到了这种力量。简而言之,随着人们从事农业,他们的人口增长速度快于狩猎采集邻居。随着农业的扩张,语言也随之传播。考古证据表明,农业在安纳托利亚开始向外传播的时间比草原牧民向外传播早了大约3000年。因此,伦弗鲁得出结论,农民是印欧语传播背后的真正力量。等到牧民开始迁徙时,他们遇到的农民已经在说印欧语了。
伦弗鲁很大程度上驳斥了草原假说所依据的语言学推理。他说,车轮、马车杆等词汇的共通性可以用并行转变来解释,即不同语言在创造新词时借用相同的基本含义。
例如,原始印欧语中“车轮”的原始含义似乎是指类似圆形或旋转的东西。不同的语言可能继承了这种基本含义,并在独立创造自己的“车轮”词时借用了它。
同样,如果表示马车杆的词“thill”具有更普遍的“棍子”或“杆子”的含义,那么它可以被不止一种语言采纳以表示马车杆。
寻求严谨
诸如此类的论点促使一些语言学家尝试用更定量的方法来重建印欧语的历史。为此,他们借鉴了生物学中常用来根据可测量性状构建进化树的技术。他们的方法被称为计算系统发育学,将语言视为进化的系统,类似于生物有机体。但与生物学中的计算系统发育学追踪DNA变化不同,语言学中的这种技术追踪词汇。具体来说,大多数分析都着眼于在不同语言中表示相同含义且可以追溯到相同的原始印欧语词根的词汇模式。这些模式越相似,语言之间的关系通常被认为越密切。
虽然这听起来可能类似于语言学家长期使用的语言树,但计算系统发育学产生的树远没有那么主观:该方法受严格算法和明确规则的支配。
本质上,计算机程序通过绘制语言树并根据所有数据和假设估算其正确的概率来工作。然后程序对该树进行一次更改,并比较概率得分,保留概率更高的树。这个过程重复进行,有时达数百万次,从而产生一组最有可能的树。
这些树显示了语言之间的亲缘关系。为了估算时间——语言何时起源和分化——研究人员还根据专家最佳估计,向计算机程序提供了他们认为不同语言存在的时间。例如,拉丁语大约在2050年前存在,古冰岛语大约在800年前存在,迈锡尼希腊语大约在3350年前存在。计算机程序使用这些锚定日期来创建其时间估算,包括印欧语最终起源的日期。
这些结果可以与语言使用地的历史记录相结合,以帮助弄清它们地理传播的可能路线图。这些日期也可以与考古记录和古代人类DNA研究相结合,以确定印欧语是否与早期农业起源或后期草原起源相符。
矛盾的结果
一项2012年发表的此类分析指出,印欧语起源于大约9000年前的安纳托利亚,支持了印欧语起源于农民的理论。但仅仅三年后,一个不同的团队使用了大致相同的数据得出结论,认为其起源仅在6000年前的草原,支持了牧民是第一批印欧语使用者的相反观点。两个团队如何能从如此相似的词汇列表中得出如此不同的结论?
赫格蒂深入研究了这个问题,发现问题出在这两项早期分析使用的数据集上,该数据集主要基于耶鲁大学语言学家伊西多尔·戴恩在20世纪60年代最初整理的一个数据集。戴恩的数据集对于戴恩正在进行的研究来说没有问题,但当用于新的计算技术时,它却扰乱了结果。计算系统发育学在研究人员感兴趣的每个词根含义都有一个单独的词时效果最佳。但例如,“脏”这个词在英语中可以有许多同义词,包括“filthy”和“unclean”。戴恩的数据集对某些语言的某些词汇包含了这类同义词,但对其他语言却没有。
赫格蒂意识到,包含任何同义词都会使数据集更难被新的计算技术使用。但同义词数量不一致——某些语言更多,另一些语言更少——则会严重扰乱计算。“我说,‘听着,我们必须完全重新做这个数据库,从头开始。我们必须做得更好,’”赫格蒂说。
于是,他和他的同事们选择了170个他们想要追溯的核心含义——你期望语言会保留的基本词汇,例如表示数字、身体部位、颜色以及像房子、山、笑声和夜晚等事物的词。然后他们召集了一个由80多位语言学家组成的团队,让他们为161种印欧语言中的每一种确定每个概念的主要词汇。只有那个词,而不是任何同义词,被纳入分析。
“我们从中创建了一个高度一致的数据库,这是前所未有的,”赫格蒂说。“我们进行了大量分析,以确保我们选择了最合适的含义。如果你不尽职尽责,你的结果就不会有效。”
当赫格蒂的团队用这个新数据库重新进行分析时,他们的发现与早期的农民起源理论大体一致,将起源地准确地定在约8000年前的安纳托利亚。从那里,该语言的一些分支向东移动,产生了包括波斯语和印度斯坦语在内的语言。其他分支向西移动,最终发展成希腊语和阿尔巴尼亚语。
但该分析也承认草原作为大多数欧洲语言的次要发源地发挥了重要作用:一个分支从安纳托利亚向北传播到草原后,从那里辐射到北欧,催生了日耳曼语族、意大利语族、盖尔语族和其他欧洲语族。
尚未信服
然而,主流历史语言学家仍持怀疑态度——对计算系统发育学总体持怀疑态度,尤其对新的结果持怀疑态度。主要批评是该方法主要依赖词汇,而忽略了词音和结构,例如构成词的词干、前缀和后缀。批评者表示,仅凭词义本身不足以得出确凿结论,无论计算多么复杂。
哥本哈根大学历史语言学家托马斯·奥兰德(Thomas Olander)表示,依赖相关词汇的问题在于,语言之间总是互相借词。因此,仅仅看到两种语言之间存在共同词汇,并不意味着这些语言源自同一母语。例如,英语使用者现在使用“寿司”这个词,并不意味着英语和日语是相关语言。
相反,大多数语言学家倾向于相信语音变化——例如“dwo”–“two”–“zwei”的变化——以及词语结构上的相似性,这些可以表明它们起源于哪种语言。词义也可以是其中的一部分,但它们不能单独发挥作用,奥兰德说。
赫格蒂的语系树也存在其他问题。例如,它显示凯尔特语与日耳曼语密切相关。但奥兰德说,大多数历史语言学家认为凯尔特语与意大利语的关系更为密切。
“这又是一个令人惊讶的发现,”奥兰德说。“我认为‘令人惊讶’可以翻译成‘这可能意味着他们的方法是错误的’。”
奥兰德认为,更有可能的是凯尔特语支和日耳曼语支长期密切共存并相互借词。他说,仅基于共同词义的分析会使它们看起来比实际更紧密相关。
剑桥大学语言学家詹姆斯·克拉克森(James Clackson)也认为原始印欧语的早期日期以及语系树的其他细节缺乏说服力。但他认为计算系统发育学值得继续研究。他说,即便没有其他,最近的研究也创建了一个高质量的新数据集,对于寻求解决该领域许多悬而未决问题的历史语言学家而言,这将非常重要。
与此同时,计算系统发育学的倡导者可能会继续推广他们的方法,并寻求更广泛学科的认可。赫格蒂认为,随着主流语言学家对这种方法及其使用的高质量数据越来越熟悉,他们可能会给予它更多的关注。
克拉克森本人表示,他愿意被说服。“这是一个不断发展的领域,值得关注,”他说。
10.1146/knowable-021224-1
库尔特·克莱纳是居住在多伦多的自由撰稿人。














