每周两三次,当生命命悬一线时,詹姆斯·布罗菲会迅速做出决定。布罗菲是蒙特利尔郊区弗登医疗中心的内科医生,该中心每年治疗约300名心脏病发作患者。当他们到达时,布罗菲会给大约一半的患者——那些及时赶到医院的患者——注射两种溶栓药物中的一种:链激酶或组织纤溶酶原激活剂(t-PA)。所有心脏病专家都同意这两种药物效果都很好:超过90%接受其中任何一种药物治疗的患者都能存活。他们分歧在于应该使用哪种药物。诚然,厚厚的报告传达了旨在测试两种药物相对优劣的临床试验结果。但不幸的是,数据含义令人困惑。
像所有其他心脏病专家一样——当然,也像所有患者一样——布罗菲想知道哪种药物更优越。为此,他仔细研究了一堆棘手的统计数据,避开了涉及我们如何才能了解任何事物的深刻哲学问题,并与麦吉尔大学生物统计学家劳伦斯·约瑟夫合作。去年,他们发表了一篇有争议的论文,指导其他医生如何拨开统计迷雾。布罗菲和约瑟夫宣称,为了做出理性选择,20世纪末的医生应该学习一位鲜为人知的18世纪英国人的思维技巧:托马斯·贝叶斯牧师。
尽管托马斯·贝叶斯牧师拥有神职头衔,但他最持久的作品是数学而非精神上的。1763年,他提出了一种评估证据的程序,被称为贝叶斯定理。本世纪初,随着现代统计学——一套不同的证据评估程序——的兴起,贝叶斯定理失宠。然而,最近一些研究人员又回到了贝叶斯思想。
数学家们大多认为贝叶斯程序并不十分令人兴奋。使用它们的人往往是分析师,他们处理需要根据不完善信息做出风险决策的实际问题:例如,评估放射性污染物对健康的风险,尽管可能缺乏精确的暴露记录且低剂量的影响尚不清楚;或者估算核电站备用柴油发电机的可靠性,尽管现实生活中发生的紧急情况非常少。甚至有一家“三大”汽车公司花重金请一位统计学家设计贝叶斯软件,用于预测新型汽车的保修索赔,尽管目前还没有关于这些汽车长期性能的数据。
理论上,贝叶斯程序是为这些混乱问题量身定制的,这些问题通常涉及复杂的科学、不确定的证据和争执不休的专家——就像心脏病专家在链激酶和t-PA之间做出选择时可能面临的困境。“我使用过这些药物,”布罗菲说,“并参与了临床试验。”但他有限的经验并没有多大作用,而1990年和1993年的两项大型试验,一项涉及约20,000名患者,另一项涉及近30,000名患者,结果却模棱两可。链激酶在一项试验中略胜一筹,t-PA在另一项试验中略胜一筹。本质上,布罗菲说,他们发现这两种药物之间没有太大区别。
然而,有一个很大的区别。t-PA大约花费1,530美元,而链激酶花费220美元。在加拿大和欧洲,大多数医生都使用链激酶。在美国,大多数医生使用t-PA。“在美国,你可能会更担心如果你不使用文献中所谓的‘最好’的药物,是否会有人起诉你,”劳伦斯·约瑟夫推测。
根据目前的普遍观点,昂贵的t-PA可能确实效果更好。毕竟,t-PA是一种天然存在于血管内皮中的酶。相比之下,链激酶是一种来源于链球菌细菌的外源酶,有时会引发免疫反应。更重要的是,t-PA只作用于血栓部位;而链激酶会在全身引发稀释血液的反应。
但直到几年前,这种所谓优越性的临床证据仍然缺失。然后,t-PA的制造商基因泰克公司与另外四家公司合作,赞助了第三次临床试验——这次是一项大型试验,涉及超过4万名患者——名为GUSTO(全球溶栓酶原和组织纤溶酶原激活剂在闭塞动脉中的应用)。当结果于1993年发表时,t-PA的效果看起来非常好,以至于这项试验的主要研究人员仅凭这项试验就宣布该药物在临床上优于链激酶。他们说,之前的试验存在缺陷。
当时,布罗菲已经回学校攻读流行病学和生物统计学博士学位,正在麦吉尔大学跟随约瑟夫学习统计学。当他了解贝叶斯定理时,它改变了他对这类试验结果的思考方式——或者说,它给一种他一直使用但以前认为不属于统计学范畴的思考方式带来了精确性。它将个人信念与数学直接结合在一起。无知见解或专家意见,怪物或圣人的偏好——任何东西都可以纳入其中,贝叶斯定理都会得出一个理性结论。
根据标准程序,分析师应客观地看待任何一项研究的数据。例如,在评估一项大型临床试验时,他可能会说,服用药物X的患者比服用药物Y的患者存活率更高,因此X优于Y。所有查看相同数据的人都应得出相同的结论。然而,贝叶斯派可能会查看证据并想:“啊哈!正如我所料:这两种药物不相上下。”另一位贝叶斯派可能会认为Y优于X。
为什么会出现如此不同的结论呢?每位贝叶斯分析师都使用贝叶斯定理评估相同的证据。然而,每位分析师也可能将其他信息带入问题中。许多贝叶斯分析师认为,统计数据应该反映我们对特定问题所了解的一切——所有相关的先验经验。每位分析师必须主观判断哪些经验是相关的——民间传说?类似的临床试验?——以及这些先验证据应该在多大程度上影响对最新结果的信念。
贝叶斯定理不要求分析师主观权衡证据,但它允许他这样做。批评者说,这使得分析的基础从坚如磐石的数学转向了个人意见的流沙。反对者称贝叶斯方法是一种任意思考的练习——一种软性、主观的统计学。
托马斯·贝叶斯牧师本人是个神秘人物。他首次以数学家的身份出现时,已经去世了。1764年,英国皇家学会追溯发表了贝叶斯关于概率的定理。本质上,这是一个在面对新证据时更新任何信念的公式。贝叶斯最初用数学家和哲学家至今仍在努力解释的词语来描述它:“一个事件的概率,是该事件发生时所依赖的期望值与该事件发生时预期事物的价值之比。”
幸运的是,贝叶斯有一个编辑。为了说明这种方法是如何运作的——他认为它是如何运作的——编辑添加了一个附录,其中包含了一个迷人的例子:让我们想象一下一个刚刚降生于世并独自观察世界的人。太阳可能首先会吸引他的注意力;但在第一个夜晚失去它之后,他将完全不知道是否还能再见到它。我们这位新人,害怕这种不确定性,决定计算日出发生的概率。
在他的第一个夜晚,这个初出茅庐的人可能会认为太阳回来的可能性不大。这被称为先验概率。贝叶斯定理解释了当婴儿遇到新证据——在这种情况下是日出——时,他应该如何更新这个信念。他从他的先验概率开始,添加新证据,将其全部输入计算器,然后输出一个更新的后验概率——即新的信念。
你可以用一个简单的“电脑”自己完成:一个碗和一些球。比如说,碗里有一个白球和一个黑球,分别代表“太阳会回来”和“太阳不会回来”。你的“电脑”给出的日出几率就是从碗里摸出白球的几率。
一开始,你不知道会发生什么;你的先验信念是完全任意的。一些贝叶斯学者建议始终从均等几率开始——一个白球和一个黑球。另一些人则不介意更主观的选择。但假设你面对全球灾难时持中立态度:太阳会回来的几率是50-50。每次你看到日出,你就会向碗里添加一个白球。两次观测后,第三次日出的几率看起来更好了:二比一有利(67%的概率)。三次观测后,几率是三比一有利(75%的概率),依此类推。每天,随着太阳不断升起,你不断提高它再次升起的概率。过了一段时间,最初的任意几率几乎无关紧要了。白球压倒了怀疑的黑球,就像证据应该总是压倒迷信一样。
何时该放弃这种繁琐的日常,宣布日出几乎板上钉钉?随你高兴;没有停止的规定。
19世纪初,伟大的法国数学家皮埃尔-西蒙·拉普拉斯将贝叶斯粗略的想法转化为可用的公式。通过他的工作,统计思想摆脱了其数学上的幼稚期。事实上,一些贝叶斯学者说他们的方法可能应该被称为拉普拉斯方法。但无论冠以谁的名字,贝叶斯式的统计学在长达一个世纪的时间里占据主导地位。然后,在19世纪末,英国统计学家罗纳德·费希尔爵士开发了更简单、更客观的数据分析程序,到20世纪20年代,几乎所有人都开始使用它们。借助费希尔的方法,研究人员可以确定任何一项研究的结果是否具有显著性。如果具有显著性,就不需要查看其他研究,不需要更新任意的先验信念,也不需要托马斯·贝叶斯牧师。每个人都可以只相信手头的证据。
如今,当某些新研究的结果获得“统计学显著”的标签时,我们将其视为数学上的认可。这意味着我们几乎可以肯定地相信这些新证据。费希尔的工作催生了这一概念,阐明了大型试验的优势。如果你抛掷硬币四次,得到三次正面,这是否显著?你会不会得出结论,得到正面的概率是75%?可能不会。这些结果很可能只是一个巧合——一次随机的长时间连续。如果你抛掷硬币1000次,你会预期大多数随机的长时间连续,例如连续3次甚至30次正面,会被类似的长时间连续反面所平衡。你总体上会预期结果更接近50%正面和50%反面。抛掷硬币的次数越多,你的结果就越可能显著,你对结果为真的信心也就越强。
费希尔和其他几位学者开发了计算显著性的形式化工具。衡量实验显著性的一种指标称为p值,另一种称为置信区间,还有一种俗称误差范围。这些都是将试验中实际发现的结果与纯粹偶然所期望的数字进行比较的方法。试验、实验或民意调查的规模越大,p值、置信区间或误差范围就越小。如果你想寻找药物之间的微小差异,你需要一个小的误差范围,这意味着需要进行大型临床试验。
费希尔将他的方法应用于经典的概率问题,例如格雷戈尔·孟德尔著名的豌豆实验。当孟德尔想知道皱纹是否是遗传特征时,他种植了光滑和有皱纹的豌豆,将它们杂交,并观察第二代。如果第二代中大约四分之三的豌豆有皱纹,那将表明皱纹作为显性特征遗传;如果大约四分之一有皱纹,那它就是隐性特征。根据孟德尔的遗传假说,任何其他比例都将排除遗传。
这类实验将统计学家的作用,本质上,简化为数豌豆。你不会对是否包含,比如说,使用旧的、有皱纹的豆子的类似试验做出任何判断;你只是不停地数成千上万的豌豆,直到达到某个任意的、能满足所有批评者的显著性水平。劳伦斯·约瑟夫认为,那些将这些程序应用于此类一目了然的问题的分析师,根本不需要了解任何事情。他们只是获取数据,输入,然后得到答案。
这对豌豆来说很好,但对新车来说却不行,新车不会带着长期维护数据现成地从生产线上下线。标准方法也无法用于估算备用柴油发电机的可靠性,因为它们几乎从不使用。当然,人体试验提出的问题远比平滑度或皱纹的遗传性更复杂,统计学上也更混乱。约瑟夫接着说,如果你当时请费希尔分析临床试验,他可能不会认为他的方法适用于此。我们永远不会知道,但他所研究的问题类型与贝叶斯学者今天研究的问题——比如在链激酶和t-PA之间做出选择——大相径庭。
GUSTO 研究表明,当 t-PA 快速给药并结合积极的后续治疗时,它显然表现更优:93.7% 接受 t-PA 的患者存活,而接受链激酶的患者存活率为 92.7%。1% 的差异可能看起来很小,但在心脏病学中它可能意义重大。仅在美国,每年就有50万人死于心脏病发作。当然,并非所有这些人都能及时赶到急诊室以便药物起效,但如果他们及时赶到,并且其中有1%的人存活下来,那将意味着挽救5000条生命。事实上,1% 恰好是进行这项新试验的研究人员选择作为 t-PA 临床优越性证据的临界点。他们说,每100名注射患者中多挽救一条生命,就足以证明 t-PA 更高的成本是合理的。当然,正如约瑟夫抱怨的那样,这是一种主观意见。
除了这个小小的争议,GUSTO 达到了临床试验的黄金标准:非常多的患者——41,021名——随机分配到接受一种药物或另一种药物的组别。1% 的差异看起来是真实的。如果链激酶和 t-PA 同样有效,你几乎不会看到生存率有高达1% 的差异。根据概率定律,对于如此大规模的试验,如果 t-PA 仅仅与链激酶一样好,那么 t-PA 表现如此出色只有千分之一的机会。因此,根据标准经典统计学,结论似乎无可辩驳:使用 t-PA,并支付额外的费用。
大多数执业医生会接受GUSTO的结果为决定性证据。但布罗菲无法忽视早期的试验。在他看来,他无法相信t-PA比链激酶好那么多。他说:“如果你要让将近10万人参与这些试验,你不需要成为贝叶斯分析师也能说,哎呀,它们之间可能没有太大的区别,对吧?”
他和约瑟夫决定重新分析所有关于链激酶和t-PA的数据。1995年3月,他们在《美国医学会杂志》上发表了他们的结论。他们广为阅读的文章《利用贝叶斯分析将试验置于背景之下》不仅仅是对两种药物的比较。它是一场全面推广贝叶斯方法的宣传。布罗菲和约瑟夫想改变医生思考临床试验的方式。在他们论文的第五页,经过一些轻松的数学小规模交锋后,他们抛出了一枚重磅炸弹。
按照任何标准显著性检验,t-PA 1%的优越性似乎几乎像物理定律一样确定。但根据布罗菲和约瑟夫的说法,如果你只考虑 GUSTO 的证据,t-PA 具有临床优越性的可能性至多只有50-50。如果你对早期结果有任何信念,那么临床优越性的几率会迅速下降到可以忽略不计的程度。
任何阅读过这篇文章的医生都可以从主观的先验信念开始,然后使用已发表的数据得出个人贝叶斯结论。布罗菲和约瑟夫解释了如何操作。例如,一种选择是像标准统计学家一样,不带任何先验信念,只接受GUSTO的结果。令人惊讶的是,这得出的t-PA在临床上具有优越性的概率不超过50%。这是因为t-PA高出1%的生存率存在误差范围。误差范围的大小并不重要。重要的是,如果你用41000名新患者再次进行同样的试验,t-PA的优势可能超过1%也可能不足1%。在真正随机的临床试验中,新试验的结果朝哪个方向发展的几率是50-50。
由于 GUSTO 的1%结果也是t-PA临床优越性的临界点,因此仅凭 GUSTO 来看,t-PA 实际临床优越的几率只有50-50。非贝叶斯分析师本可以发现这一点。如果 GUSTO 研究人员选择了临床优越性的任何其他值,那么几率就会不同。正如现在这样,研究人员选择了临床优越性的小值,但其结果却勉强过关。因此,任何人对 t-PA 最低限度优越性的合理信念程度,充其量也只是,可以说,半心半意。
这个令人沮丧的结论并不与GUSTO研究令人印象深刻的高显著性相矛盾。显著性是一回事,临床优越性是另一回事,尽管它们很容易混淆——正如布罗菲怀疑有些医生在阅读GUSTO研究时会犯的错误。布罗菲和劳伦斯说,鉴于GUSTO的结果,如果进行1000次试验,t-PA可能会有999次表现更好。但它会有多少次好1%呢?答案充其量是大约一半的次数。你可以99.9%确定t-PA比链激酶更好,同时却只有50%确定它在临床上更优越。
那是在你没有任何先验信念的情况下,就像一个初入丛林的孩子。如果你对早期试验赋予更多可信度——任何程度的可信度——t-PA的临床优越性看起来就不太可能。布罗菲和约瑟夫展示了三种选择:对两项早期试验结果的信念度分别为10%、50%和100%。你可以选择任何程度的信念作为起点——这是你自己的主观判断。
如果你选择10%,这意味着你只给予早期证据GUSTO证据十分之一的统计权重。如果你以最大值100%接受早期结果,你就会对试验之间差异——t-PA的快速给药、后续治疗等等——的意义持怀疑态度。你愿意接受所有三项试验的表面结果并将它们综合起来。这种选择得出的t-PA临床优越的概率最低,几乎为零。
但是,为什么止步于对所有三项试验的公正、平等的信念呢?布罗菲和约瑟夫暗示,GUSTO数据的重要性可能更小。参与研究的医生知道他们给药的是哪种药物——这不是一项盲法试验——而且接受t-PA的患者似乎也增加了1%进行冠状动脉搭桥手术的可能性。
这种来回拉扯是复杂科学问题的典型特征。矛盾的结论也很常见;你每天都能在报纸上看到它们。例如,1月4日,美联社报道了全球变暖的这一新证据:“英格兰东安格利亚大学气候研究部门的菲尔·琼斯说,1995年全球平均地表温度为58.72华氏度,比1961-1990年的平均值高出0.7度。这是有记录以来单一年份的最高平均地表温度。”
三位专家对这项新统计数据发表了评论。“这是一系列发现的顶点,它们证明世界正在变暖,”环境保护基金会的大气科学家迈克尔·奥本海默说,“问题不再是气候是否正在变化,问题现在是我们该如何应对。”奥本海默对其他证据的先验信念显然影响了他,使他接受了这份关于地表温度的新信息。
科罗拉多州博尔德国家大气研究中心的凯文·特伦伯斯警告说,英国的这项研究可能夸大了整体变暖的程度。在他看来,这也许是一个偶然现象。这可能是支持计算更多豌豆的论据。
第三位专家,弗吉尼亚大学的气候学家帕特里克·迈克尔斯提到了具体的先验证据。“现在存在统计学上的显著差异,”他说,“在那个[英国]陆基记录测量的温度和卫星测量的温度之间。”他给予卫星证据更大的权重;卫星覆盖范围更广。“卫星记录中的净温度趋势,刚刚结束其第17年,实际上略微呈负值,”他说。“我认为从长远来看,你只会看到越来越多的证据证实,变暖程度不会像预测的那样大。”
在约瑟夫看来,这一切都代表着特设解释,通过贝叶斯分析可以大大改进。当然,没有人指望研究人员在与记者交谈时能滔滔不绝地讲出无可挑剔的贝叶斯逻辑。但约瑟夫看到了一个更深层次的问题,这暴露了标准程序的明显缺陷。首先,一些客观数据在几乎完全脱离上下文的情况下出现。然后,一些解释猛烈地攻击了新证据。即使在科学期刊上也是如此。“研究人员从各地获取先验证据,但这从未在正式层面上进行,”布罗菲抱怨道。“贝叶斯分析的区别在于,它迫使你正式考虑先验信息,并正式将其纳入你的分析。这样,至少你可以检查主观性。而且主观性总是存在的,否则科学家们就不会有分歧。约瑟夫说,正是主观性明显的程度,造就了好的科学。”
大多数贝叶斯派会说,你的先验信念不应该凭空而来。有些人说它们不应该来自任何地方;因为他们相信贝叶斯统计学不应该比经典统计学更主观,他们倾向于使用标准值,例如给予每组数据相同的权重。另一些人,像乔治华盛顿大学统计学家诺泽·辛格普瓦拉(Nozer Singpurwalla),他是更热情的贝叶斯复兴主义者之一,他说从主观信念开始是贝叶斯统计学的全部意义;它将分析师从数豆子的统计奴役中解放出来。
至于布罗菲,他仍在弗登医疗中心,忙于他的繁重工作。在业余时间,他也仍在攻读博士学位。在此过程中,作为一项仅用于一门课程的项目的一部分,他可能改变了临床医生解释临床试验数据的方式——或者至少是医学史上最大规模试验之一的数据。他个人认为t-PA临床优于链激酶的几率不超过5%或10%。按这个比例,t-PA可能在每250名心脏病发作患者中只多挽救一条生命。那么,这个人多活的生命是否值得额外的327,500美元(比如说,给所有这些患者使用更昂贵的药物所花费的费用)?
布罗菲说,作为一名医生,你的首要责任是对你的病人。你也要稍微考虑一下接下来的病人。也许你的医院快破产了,无法继续治疗他们。这些都是难以面对的问题。人们宁愿不去面对。
而这,归根结底,可能是贝叶斯学者面临的最大问题。正如约瑟夫所说,他们的程序迫使人们审视自己的信念——并可能改变它们。人们宁愿不这样做。














