这里有一个思想实验:如果你被告知余生只能喝一种酒精饮料,并且你希望生活长久健康,你会选择什么?葡萄酒,对吧?毕竟,你可能听说过科学研究表明,喝葡萄酒与整体健康状况更好有关,特别是 寿命更长。让运动爱好者喝啤酒,让酒鬼喝烈酒;健康长寿的人喝的是葡萄酒。
但你可能没有听说过 另一项研究,该研究于去年圣诞节后不久发布,质疑了葡萄酒的健康益处。斯坦福大学和德克萨斯大学奥斯汀分校的研究人员检查了一组年龄在 55 至 65 岁之间的美国人,并将他们的饮酒习惯与 20 年来的健康状况进行了比较。科学家们发现,适度饮酒者比不饮酒者寿命更长,葡萄酒饮用者平均寿命确实比饮用其他种类酒精的人更长。但他们还发现,葡萄酒饮用者吸烟、男性和久坐的可能性更小;所有这些因素都与过早死亡有关。
斯坦福-德克萨斯团队得出结论,饮用葡萄酒可能是健康生活方式的指标,而不是健康的原因。如果是这样,葡萄酒确实是健康人的饮料——那些 *已经* 健康的人。
这一发现突显了科学最大的敌人——混淆因素。科学的本质是还原主义过程:将一个复杂的系统,识别影响该系统的各种因素,并一次测量每个因素的影响。 混淆因素 是隐藏的、狡猾的联系,使得难以分离您想要测量的因素,例如葡萄酒饮用者也倾向于不吸烟这一事实。
研究人员不断尝试根除混淆因素并在其数据中加以考虑。他们在这个工作中最强大的工具是 随机对照试验,这是一种实验,研究人员将参与者分成两组或多组,对其中一些人进行干预,例如新药或手术,以进行研究。
在新医疗干预措施获得美国食品药品监督管理局 (FDA) 批准之前,必须在随机对照试验中证明其安全有效。尽管被视为医学研究的黄金标准,但即使是涉及数千名参与者的研究,也可能不足以找出罕见的风险因素或副作用。而对于食物的说法,可能永远不会进行随机试验。为了研究和一点钱,很少有百威或波本威士忌的饮用者会在 20 年内转而饮用勃艮第红酒。
2009 年,哈佛医学院的流行病学家开发了一种方法,让科学家能够解释那些混淆他们研究的看不见的联系。据算法的创造者之一 Jeremy Rassen 称, 新方法 使用一种算法,该算法可以自动识别和调整混淆因素,其效果与最有知识的科学家一样好或更好。
葡萄酒可能是健康生活方式的指标,而不是健康的原因。如果是这样,那就是已经健康的人的饮料。
该算法称为高维倾向得分算法 (hd-PS),它是一种用于改进更广泛的 观察性研究 的工具,而不是随机临床试验。在观察性研究中,研究人员观察大量参与者并寻找相关性——例如葡萄酒饮用者比其他饮酒者寿命更长这一事实。观察性研究比临床试验更便宜、更容易。不幸的是,它们产生的数据充满了混淆因素问题,但研究人员可以通过调整可疑的混淆因素并消除它们引入的偏差来改进数据。例如,在最近一项关于葡萄酒和寿命的观察性研究中,在研究人员考虑了吸烟、性别和活动水平之后,他们发现啤酒和烈酒与葡萄酒一样能延长寿命。
而这正是 hd-PS 发挥作用的地方。虽然经验丰富的研究人员可能会调整几十个混淆因素,但 Rassen 的算法可以轻松识别 500 个。要使用 hd-PS,研究人员从哈佛网站下载程序,将其连接到流行病学中广泛使用的数据软件包之一,并将各种健康信息导入系统,这些信息涵盖了研究对象的各个方面,从血压和年龄等基本信息到更小、更晦涩的因素,例如个体是否在过去六个月内看过医生。
然后,hd-PS 会摄取所有这些信息——“它是一个数据饥渴的算法,” Rassen 说——并进行繁重的数字计算。计算的核心是一个称为倾向得分匹配的过程。该算法会筛选数据中的所有变量,并分离出似乎是特定健康问题的风险因素。它将这些风险因素合并为一个汇总得分,并比较具有相同汇总得分但有一个关键区别的两个组。例如,具有相同汇总得分的啤酒饮用者和葡萄酒饮用者,在他们的首选饮料方面不同,但其他方面风险水平完全相同。计算机本身完成了分离每个变量并测量其影响的关键任务。
在 去年一月发表的一篇论文 中,Rassen 和另一位哈佛流行病学家、该算法的共同创造者 Sebastian Schneeweiss 对 hd-PS 进行了测试,以查看它是否能像人类专家一样分析复杂的健康数据。他们将一些先前发表的观察性研究的发现输入 hd-PS,并证实它得出的结论与通过传统方式、由专家科学家逐个挑选混淆因素得出的结论相似。在一次运行中,他们输入了大量数据,比较了 COX-2 抑制剂(如 Celebrex 的一种流行止痛药)和非选择性非甾体抗炎药(NSAID)(如布洛芬和萘普生)在宾夕法尼亚州一组老年患者中的安全性。
原始数据显示,服用 COX-2 抑制剂与胃肠道出血风险增加 9% 相关,这是一种可能危及生命的副作用——这令人惊讶,因为此前一系列临床研究表明,这些药物引起胃肠道出血的可能性较小。事实上,这就是 COX-2 抑制剂的研发初衷之一。这里巨大的混淆因素是,医生特别将这些药物处方给胃肠道出血风险较高的人。当原始的、误导性的数据输入 hd-PS 时,该算法迅速梳理出混淆因素,并计算出与 ns-NSAID 相比,COX-2 抑制剂的 GI 出血几率降低了 13%,这一数字接近随机试验的结果。
Rassen 说,hd-PS 的表现“确实非常令人鼓舞”。“该算法发现的东西比调查人员自己还多,这正是我们所期望的。”
许多科学家对让计算机程序接管他们宝贵数据的分析感到怀疑,这是可以理解的。“第一反应是:‘这不可能。我们有 50 年的研究方法历史,但这根本不是那样做的,’” Rassen 说。但当研究人员进一步考虑 hd-PS 时,他们通常会认识到它的价值——即使它通过发现比他们自己发现的更广泛的混淆变量而伤及一些自尊心。
该算法在研究人员拥有庞大的数据集并对其中可能隐藏的发现几乎有无穷无尽的问题时,可能特别有用。这就是 FDA 正在开发的 Sentinel Initiative 所固有的挑战,该计划旨在监测药品上市后的情况。为了通过 FDA 严格的批准过程,制药公司必须在昂贵的随机临床试验中证明其产品的安全性和有效性。但之后,当公众开始使用这些药物时,它们会经历第二种、不受控制的试验。
混淆因素是隐藏的联系,使得更难判断药物是否真正有效,或者研究结果是否正确。
Sentinel 将消费者市场视为一项巨大的观察性研究,以确保药物像人们认为的那样安全有效。在实际使用中的药物研究在某些方面比临床试验更好。首先,服用药物的受试者通常要多得多,因此上市后研究可以发现之前因过于罕见而未能显现的问题。此外,试验通常被设计成最佳场景,以展示药物的潜力;在患者手中,药物可能效果不佳。
在充满看不见的联系的、不受控制的现实世界中,哈佛研究人员的算法可能是理解复杂数据的最佳工具。Rassen 分析了从公众使用 Vioxx(一种 COX-2 抑制剂,于 2004 年因增加心脏病发作和中风风险而被召回)中获得的信息。他说,他的算法“肯定”会及早发现问题。
随机临床试验无疑将继续是药物获批的主要机制;它们太强大、太根深蒂固了。但是,hd-PS 应该能提供宝贵的新信息,以了解如何在药物上市后使用它们——并可能挽救那些服用可能具有致命副作用的药物的生命。哈佛医学院的 Richard Platt,也就是正在进行的 Mini-Sentinel 试点项目(Sentinel Initiative 的试验场和热身活动)的负责人,希望 hd-PS 能够准确地找出健康问题,或者让它们得到解决。“我们计划在接下来的几个月内对其进行测试,”他说。
如果 hd-PS 被证明对上市后药物审查有用,算法最终会取代研究人员的工作吗?未来的科学家会是计算机吗?Rassen 坚信,调查人员的很大一部分工作是安全的。“我们对研究项目的设计进行了很多思考。我怀疑这是计算机能够做到的,”他说。决定执行哪种实验以及如何设置实验,对于这种情况来说过于特殊,无法交给算法。
在计算机能够像精妙的人类心智一样处理现实世界复杂性之前,科学家仍然是必需的。但他们可能应该习惯这样的想法:计算机在从海量数据中寻找真相的“针”方面,可能已经比人类做得更好了。















