广告

宽恕的数学

在弱肉强食的世界里,进化本应迅速淘汰无私行为。

作者:Thomas Bass
Google NewsGoogle News Preferred Source

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

好人并非总是垫底。事实上,他们有时会拔得头筹。现在,多亏了两位奥地利数学家的研究,他们发现了宽恕的价值。我们有了科学证据来证明这一点。或者至少他们发现了在弱肉强食的世界里,宽恕是如何产生的。

广告

在不确定条件下,慷慨会带来回报。“你不应该过于宽容,但也不应该过于不宽容,”维也纳大学47岁的数学家卡尔·西格蒙德说,“永远不要忘记善意,但偶尔也要尝试宽恕恶意。我们通过培养敏锐的感恩之心和少量的慷慨而受益。”

美国大使馆布满了窃听站,就在西格蒙德办公室窗外。边境线不远处,交战中的塞尔维亚人和克罗地亚人在南方互相残杀,而前苏联帝国正在东方崩溃。难怪合作的进化在维也纳是一个热门话题。去年,西格蒙德和他的前研究生马丁·诺瓦克共同发现了可以称之为“维也纳中庸之道”的理论。

尽管这个关于好人如何产生和生存的故事有一个圆满的结局,但它充满了惊险的擦肩而过和险象环生。事实证明,好人无法独立做到这一点。他们需要一些不那么好的人的帮助,而这些不那么好的人最终会在一次世界末日般的善意爆发中消失。

“我绝不想给人留下这样的印象,认为这种慷慨合作的倾向是常态。”西格蒙德说,他头发蓬乱,留着刷子状的胡子,戴着眼镜。在他描绘这种新的宽恕理论的局限性时,他坐在一幅描绘尼莫船长驾驶潜水艇在海底两万里航行的蚀刻画下。“它只有在合作者得到严厉报复者的帮助后才能奏效。这是基本信息:要实现合作,你需要一支警察队伍,但警察最终会消亡。所以,有警察是好的,但不要成为警察!如果这一切听起来奇怪而令人困惑,欢迎来到宽恕数学的离奇世界。”

长期以来,科学家们一直对为什么会有人为别人做无私的事情感到困惑。这些友善的表现被称为利他主义,它们似乎与达尔文的进化论不符。进化游戏的目的是传递你的基因,而你最好的机会通常意味着为你自己和你的后代尽可能多地获取食物和其他资源。具有无私、慷慨冲动的动物似乎不具备竞争能力,很可能迅速死亡。达尔文称之为“适者生存”,而非“好人生存”。

那么,为什么吸血蝙蝠会与没有血缘关系、不幸的邻居分享它们的血液大餐呢?一只吸血蝙蝠每晚必须消耗其体重的50%到100%的血液。如果连续两晚未能进食,它就会死亡。但是,一只濒临饥饿的蝙蝠如果得到同伴吐出的血液大餐,就能多活12小时,并获得另一次进食的机会。有人甚至计算出了这种吸血蝙蝠伙伴系统的几率。如果蝙蝠不实行食物分享,它们的年死亡率将达到82%。通过食物分享,这个比例下降到24%。

蝙蝠并非唯一慷慨的动物。野生黑猩猩以及偶尔的人类也实行非亲属个体间的食物分享。刺鱼会组队检查危险的捕食者。雌雄同体的黑石斑鱼轮流受精彼此的卵子;一条鱼在受精后可能会自私地溜走,让它的前伴侣陷入困境。

第二次世界大战后,关于利他主义存在的生物学争论被社会科学家所关注。如果吸血蝙蝠都能做到协同合作,那么克里姆林宫和五角大楼难道就没有希望吗?模拟自私个体间合作演变最著名的范例是被称为“囚徒困境”的数学游戏。它的运作方式如下:

想象一下,两名囚犯因共同犯罪而面临牢狱之灾。他们被当局分开审问。如果他们抵制互相告密的诱惑,他们的不在场证明就会成立,几个月后两人都会被释放。(我们给这个结果各赋3分,游戏的目标是得分最高。)如果两名囚犯都退缩并互相告密,他们都会得到更长的刑期(尽管少于最高刑期,因为他们因充当政府证人而减刑);这种较低的回报各得1分。但最高的汇报是给告密者,而他的同伴保持沉默;这样,告密者就可以逍遥法外,获得5分,而沉默的傻瓜则得到最高刑期,获得0分。

广告

在简单的囚徒困境中,游戏只玩一次,没有设想未来的比赛,如何行动的理性选择如此清晰,以至于根本没有困境。如果你友善,你就有可能被对手当成傻瓜;最小化风险的唯一方法是告密。你至少会得到1分,如果你的对手是个容易上当的傻瓜,你甚至可以得到5分。抱歉,好人。目前还没有希望。

但是这种生命模式,将世界描绘成一条充满陌生人、一生只相遇一次的黑暗小巷,并不特别现实。我们更有可能在同一街区反复遇到同样的人。数学家们已经通过迭代或重复囚徒困境来解释这一事实,这样相同的玩家就会一次又一次地面对彼此。

广告

当你玩重复轮次的囚徒困境时,游戏完全不同。最令人惊讶的事实是,竞争不再有一种策略优于所有其他策略。游戏变得偶然、充满变数。一切都取决于你在任何特定时刻与谁对战。

“对于简单的囚徒困境,你有一个最佳策略,那就是背叛,”西格蒙德说,“但对于重复囚徒困境,没有最佳策略,而且也不可能找到一个单一的最佳策略。你总是会遇到最好切换策略的情况。这一切都取决于你和什么样的玩家搭档。”

考虑以下例子。如果你遇到一个不屈不挠的背叛者,你应该总是背叛。如果你遇到一个全力合作者,你也应该总是背叛。但如果你遇到一个严厉的报复者——一个合作直到对手背叛,从那一刻起再也不合作的人——你应该合作。

两个疯狂的背叛者互相攻击不止,每轮只能获得1分,而两个合作者持续互相帮助,每轮都能稳定获得3分。我们开始明白合作如何能带来回报,从长远来看,根据我们为游戏设定的任意值,3分是任何人每轮预期获得的最高平均回报。

广告

数学家、博弈论者、生物学家和军备谈判代表已经争论了30年,争论在重复囚徒困境中哪种策略最好。罗伯特·阿克塞尔罗德,密歇根大学的政治学家,决定用一场电脑比赛来解决这个问题。与人类不同,人类在处理如此细致的工作时会感到厌倦和马虎,而电脑可以无休止地进行这些策略之间的对抗,或者至少直到电源被拔掉。

世界各地的研究人员向阿克塞尔罗德邮寄了14个不同的计算机程序。他添加了一个自己的,并在1978年的一场循环赛中让它们互相对抗。获胜者是最简单的程序,即“以牙还牙”。它来自阿纳托尔·拉波波特,一位前音乐会钢琴家,也是博弈论的泰斗之一。“拉波波特对囚徒困境感兴趣有政治原因,”西格蒙德说,他在八十年代初拉波波特从加拿大搬到维也纳时认识了他。“拉波波特坚定地致力于和平运动,这可能是他来到奥地利这样一个中立国家的原因之一。”

拉波波特将超级大国之间的军备竞赛视为囚徒困境最引人注目的例子之一。拉波波特推断,一个合乎逻辑的军备竞赛策略就是“以牙还牙”:第一轮合作,然后模仿对方的任何行为。

尽管“以牙还牙”在某些情况下可能很成功,但它并非总是最佳策略。在分析他第一次锦标赛的结果时,阿克塞尔罗德发现“以牙还牙”本可以被另一种无人想到的策略击败:两报还一报(Tit for Two Tats)。这种更慷慨的策略只在对方连续两次背叛后才进行报复。它的宽恕本性在长期内促使其他玩家更多地合作,因此尽管“两报还一报”不会赢得任何单一遭遇战,但总的来说它会获得最多的分数。相比之下,诸如“以牙还牙”等更严格的策略将被迫与报复者对抗,从而获得较低的分数,并落后于“两报还一报”的得分。

广告

阿克塞尔罗德在1979年举办了第二轮循环赛。“以牙还牙(Tit for Two Tats)”是参赛的63个程序之一。尽管它本可以赢得第一次比赛,但这次该策略明显惨败,排名第二十四。发生的事情是,人们采用了更恶毒的策略,这些策略旨在利用好人。他们知道“以牙还牙(Tit for Two Tats)”只会在连续两次背叛后才进行报复,所以这些卑鄙的策略只是每隔一轮就背叛。他们获得了大量分数,“以牙还牙(Tit for Two Tats)”既不能报复,也不能诱使其他人合作。这表明游戏是多么的偶然,结果随着玩家的每一次独特组合而变化。

那么,谁是赢家呢?还是可靠的老策略“以牙还牙”,它再次展示了它在对抗自私玩家时的出色表现。如果玩家合作,“以牙还牙”也合作;如果玩家背叛,“以牙还牙”也背叛。几乎没有空子可钻。自私的玩家不能领先太多,而“以牙还牙”在与其他合作者对抗时能获得大量分数。总的来说,它获得了最高的总分。

广告

1980年,阿克塞尔罗德提出了一种不同的比赛。他希望用计算机模拟自然选择,通过模拟自然界的生态遭遇。这场生态比赛的参与者组成了一个群体,每次游戏重复都会改变。例如,在第一轮中得分最高的策略将获得后代:两个或三个自己的版本,它们都将参与下一轮。通过这种方式,可以建立起整个由战略合作者或背叛者组成的群体。在随后的回合中,获胜策略繁殖,而不太成功的竞争对手则消亡。

正是这场比赛首次让卡尔·西格蒙德对囚徒困境产生了兴趣。西格蒙德此前一直在维也纳大学从事理论化学研究,研究超循环,一种自我复制分子的系统,可能为地球生命如何演化提供线索。“当我发现囚徒困境在进化生物学中具有意义时,我感到非常兴奋,”西格蒙德说。事实上,他非常兴奋,以至于他从研究自我复制分子转向研究动物行为模型。

“对于数学家来说,”西格蒙德说,“你研究分子还是动物行为并不重要。它们都归结为相同的微分方程。从数学上讲,这实际上是一个领域:自我复制实体的种群动态。它们可以是RNA分子,也可以是生殖策略,也可以是互相捕食的动物,或者是寄生虫,或者其他任何东西。成功决定了领域的构成,而构成又决定了成功。很难预测这会带来什么。”

西格蒙德饶有兴致地看着阿克塞尔罗德的生态锦标赛一直进行到第一千回合。结果仍然是“以牙还牙”获胜。“乍一看这似乎是自相矛盾的,但当然不是,”西格蒙德说,“当被投入到一个顽固不化的背叛者巢穴中时,一个单独的‘以牙还牙’策略的表现会不如那些‘坏家伙’,因为它在第一回合就被淘汰了,然后才进入强硬模式。但是,当它与自己或其他友好策略对战时,‘以牙还牙’的表现会明显优于‘总是背叛’这样的强硬策略,后者在与自身互动时每回合最多只能获得一分。这意味着,当‘以牙还牙’者开始以群体或家族形式互动时,他们的表现最好,”西格蒙德说,“亲缘关系促进合作。在‘总是背叛’和‘以牙还牙’的混合体中,即使只有一小部分人口采用友好的策略,该策略也会开始自我复制,并迅速主导游戏。”

即使“以牙还牙”策略屡获成功,阿克塞尔罗德和西格蒙德也清楚地看到它存在致命缺陷。“它对错误没有任何容忍度,”西格蒙德说,“虽然计算机程序完美无缺地交互,但人类和其他动物显然不是。在生物或人类交互中,显然有时会出错,你会错误地识别某人。你遇到一个朋友,却不认识他,然后你背叛了。这是‘以牙还牙’的致命弱点,它尤其容易自取灭亡。”

一个真实的“以牙还牙”对抗“以牙还牙”的版本可能会陷入无休止的报复循环。因为它只知道反击背叛者,一个混淆的信号就会让“以牙还牙”陷入冤仇,相比之下,哈特菲尔德家族和麦考伊家族的世仇都显得温和。如果在比赛中引入一些这样的错误,“以牙还牙”的平均收益会下降25%。“这是一个糟糕的表现,”西格蒙德说,并指出一个随机策略(在每一轮中以相同的概率不假思索地背叛或合作)也会做得同样好。

广告
广告

打破这种严酷报复的恶性循环的明显方法是,偶尔愿意既往不咎。“我们甚至可以计算出最佳的宽恕程度,”西格蒙德说,“维也纳的‘黄金中庸’——在不完美的世界中,能产生最佳策略的额外慷慨剂量——包含在以下规则中:始终以合作回应合作,当面对背叛时,平均每三次合作一次。体现这一规则的策略被称为‘慷慨的以牙还牙’。”

“慷慨的以牙还牙”的优点在1980年代早期就已经为人所知,当时一位名叫佩尔·莫兰德的瑞典科学家计算了在一个纯粹的“以牙还牙”有时会犯错——就像俄狄浦斯遇到他的父亲——的世界中,慷慨所带来的好处。莫兰德通过反复试错得出了三分之一的数字。莫兰德的发现并不意味着你应该对每第三次打击都置之不理。显然,让你的对手确切知道你何时会友善,那将是一个巨大的错误。这个数字只是一个平均值。

“慷慨的以牙还牙”在理论上看起来很棒,但西格蒙德想知道它是否与现实有任何相似之处。有没有证据表明一个进化的种群——无论是分子、动物还是计算机程序中的数字串——会真正采纳“慷慨的以牙还牙”?“我们想知道‘慷慨的以牙还牙’是否具有生物学相关性,”西格蒙德说,“你可以很容易地证明它是群体中最好的策略,但进化必然会导向这个最好的策略吗?”

为了回答这个问题,西格蒙德和马丁·诺瓦克在1991年组织了一场他们自己的电脑比赛。诺瓦克是维也纳大学的化学系学生,当时他听了西格蒙德关于囚徒困境的讲座。他发现这个问题非常吸引人,以至于他允许自己被西格蒙德“绑架”,并转而撰写关于该游戏数学的博士论文。诺瓦克在一年内完成了这项工作——创造了大学记录——然后前往理论生物学发源地牛津大学。

认识到错误在囚徒困境中的重要性,西格蒙德和诺瓦克开始使用所谓的随机策略来玩这个游戏。随机意味着随机,而像“慷慨的以牙还牙”这样的策略允许在一定程度上灵活地应对对手。

“我们一直在进行实验,每个人都采用相同的策略,然后观察当少数人进来并开始采用其他策略时会发生什么,”西格蒙德说,“他们会扩散还是被消灭?后来我们产生了这样的想法,为什么不尝试用100种不同的随机选择的策略来测试我们的模型呢?这些策略或多或少宽容,或多或少宽恕。有些会每两次宽恕一次,有些会每五次宽恕一次,等等。当然,有些则永远不会宽恕。”

广告

西格蒙德和诺瓦克组织他们的比赛所需要的只是一个随机数生成器,用来告诉计算机在给定时刻哪两种策略相互对抗。“但我们没有随机数生成器,”诺瓦克说,“所以我自己做了一个。”诺瓦克在圣诞节期间来到维也纳,两人将包括“慷慨的以牙还牙”在内的玩家加载到诺瓦克的笔记本电脑中。然后他们坐下来,看着玩家们战斗了数千代。获胜的策略自我复制。失败者被淘汰出局。

“一切看起来都非常光明,正如我们所料,”西格蒙德说,“更慷慨的策略总是占据上风。但是当诺瓦克回到牛津并开始使用一台更合适的计算机时,我们发现我们一直在使用错误的随机数生成器,所以我们没有真正代表所有可能的报复百分比。”诺瓦克解释道:“我做的那个有偏差。有些策略出现的频率比它们应有的高。‘以牙还牙’就是其中之一。”

广告

当诺瓦克修复了这个问题,让所有策略都有一个公平的竞争环境时,事情失控了。西格蒙德说:“非但友善策略没有主宰游戏,反而进化始终倾向于‘总是背叛’,这让我们一点都不喜欢。我的意思是,自然界并非如此运作。那不现实。”

在经历了两周的黑暗,看着那些卑鄙小人入侵他们的比赛后,诺瓦克和西格蒙德偶然发现了合作进化的关键。他们注意到,只需一个小小的改动,游戏就发生了根本性的转变。如果在游戏开始时加入一定剂量的“以牙还牙”策略——只需足以建立一个微小飞地,剂量小到仅占人口的百分之一——那么方向就会翻转。“慷慨的以牙还牙”不足以组织这种合作的出现,西格蒙德说,“所需要的是一种警察部队,一个少数派,通过其严格性来促成这种转变,但最终证明它并非最佳策略。”

如果你没有“以牙还牙”,而是其他策略,它是无法做到的。它必须是一个非常严格的报复者。但是,在转向合作之后,获利的并不是“以牙还牙”。它的频率上升了,但随后它让位于“慷慨的以牙还牙”。“以牙还牙”不是进化的目标,但它使其成为可能。它是一种支点。

整整100代,“总是背叛”策略以一种看似不可避免的凶猛主宰着人口;它看起来如此糟糕,你几乎要放弃希望。少数被围困的“以牙还牙”策略者在灭绝的边缘挣扎求生。但当这些受害者几乎被消灭,剥削者再也无处可剥削时,游戏的方向逆转了。报复者重新焕发活力。剥削者遭受了毁灭性的逆转。西格蒙德回忆道:“看着那些‘总是背叛者’衰弱并最终消亡,真是令人愉快。”

广告

但那些坚定的“以牙还牙”者并非最终赢得比赛的人。他们将输给那些更友善的同类,这些同类利用了“以牙还牙”不够宽容、无法容忍偶尔错误的致命缺陷。100代后,游戏从“卑劣”转向“友善”,300代后,游戏再次转向“非常友善”,此时“慷慨的以牙还牙”已经根深蒂固,没有任何卑鄙小人能够入侵游戏。

当每个玩家都采用“慷慨的以牙还牙”策略,毫无顾虑地自我复制时,游戏就到达了历史的终点。对于这些自我永生的好人来说,进化已经有效地停止了。

这是一个令人愉快的画面,但西格蒙德不相信这种状态会持续很久。“只有在有限的策略空间中,你才能到达历史的终结。但通过增加具有更多记忆或其他功能的策略,空间总是可以扩大的。生物体可以通过互相观察和分享信息来积累经验。进化肯定不会停止。这个游戏中可能的策略数量是惊人的。”

它也不是生物世界的完整图景。“这是一种非常简化的对抗模型,”他说,“在世界上所有可想象的互动中,很少有能简化为囚徒困境的。它不是自然界中最普遍,甚至不是最常见的互动模式。但它太简单了。它透明。就像俳句一样。世界被简化为几行文字。”

广告

然而,令人欣慰的是,我们知道这可能是合作和无私在这个星球上建立的一种可能途径。因此,在去年《自然》杂志上发表他们的研究结果后,西格蒙德和诺瓦克已经计划举办更多的比赛。“我现在最感兴趣的问题是如何将更长的记忆投入到游戏中,”西格蒙德说,“我们希望模拟如何通过重复互动建立信任,而这种信任的建立只有在拥有更长的记忆时才能发生。我认为自然选择最强的趋势是进化出更好的记忆,但‘慷慨的以牙还牙’的启示是,遗忘也可能是有益的。”

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章