广告

巧克力和红肉可能对你的科学有害:为什么许多营养研究都是错误的

探讨观察性流行病学在揭示红肉和加工肉类对健康的真实风险方面的缺陷。研究会误导我们吗?

作者:特约博主
Google NewsGoogle News Preferred Source

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

作者:Gary Taubes,著有

广告

诺贝尔之梦 (1987), 坏科学 (1993), 好卡路里,坏卡路里 (2007), 和 我们为什么发胖 (2011)。

Taubes 是 DISCOVER 的前员工。他曾三次获得美国科学作家协会的科学社会奖,并于 1996-97 年获得麻省理工学院奈特科学新闻奖学金。本文的修改版本发表在 Taubes 的博客

过去几周,出现了比平时更多、极具新闻价值的营养新闻,这些新闻可以被描述为糟糕的新闻业以糟糕的科学为食。第一个是哈佛大学公共卫生学院的一份报告,称食肉显然会导致过早死亡和疾病(《纽约时报》对此进行了报道)。

纽约时报

对此进行了报道),第二个是加州大学圣地亚哥分校的报告,暗示巧克力是一种我们都应该吃以减肥的食物(《纽约时报》再次报道)。这两项研究都是所谓的观察性流行病学的经典例子,我对这项研究领域在 2007 年《纽约时报杂志》的一篇封面文章中进行了详细讨论。那篇文章题为“我们真的知道什么能让我们健康吗?”,我提出论点,认为这种特殊的追求更接近伪科学而非真正的科学。我以哈佛大学公共卫生学院的研究人员(由负责护士健康研究的 Walter Willett 领导)的一项合作研究作为案例研究。我指出,这些哈佛研究人员每次声称他们在观察性试验中观察到的关联是因果关系——即食物或药物 X 导致疾病或健康益处 Y——并且这种所谓的因果关系随后在实验中进行了测试,实验都未能证实因果解释——也就是说,哈佛大学的人搞错了。不是大多数时候,而是每一次。现在正是这些相同的哈佛研究人员——Walter Willett 和他的同事——撰写了两周前的文章,声称红肉和加工肉类的消费是致命的;经常食用会增加我们过早死亡和罹患一系列慢性疾病的风险。Zoe Harcombe 在她的网站上出色地剖析了这篇论文。我想谈谈更大的图景(以一种不那么简洁的方式)。这是一个关于科学本身和营养研究质量的问题。科学最终是关于建立因果关系。它不是关于猜测。你提出一个假设——力 x 导致观察 y——然后你尽力证明它是错误的。如果你不能,你暂时接受你的假设可能是正确的可能性。用科学哲学的领军人物卡尔·波普尔的话来说,“科学的方法是大胆猜测和巧妙而严厉地驳斥它们的方法。” 大胆的猜测、假设、做出导致你猜测的观察……这很容易。巧妙而严厉地驳斥你的猜测是困难的部分。任何人都可以做出大胆的猜测。(这是一个例子:外星人导致心脏病。)巧妙而严厉地检验假设是进行科学研究最重要的一部分。像哈佛大学和加州大学圣地亚哥分校的那些观察性研究,给我们带来了关于肉类的坏消息和关于巧克力的好消息,问题在于研究人员很少这样做。科学的困难部分被遗漏了,他们直接跳到终点,坚持认为他们对关联的因果解释是正确的,我们可能都应该相应地改变我们的饮食。在这些观察性研究中,流行病学家建立了一个受试者队列进行跟踪(在哈佛的案例中是数万名护士和医生),然后询问他们吃了什么。他们使用的问卷出了名的不可靠,这个事实在这里几乎无关紧要,因为其余的科学方法也存在缺陷。然后他们跟踪受试者数十年。现在他们有了一个疾病、死亡和食物消费的数据库,他们可以在这些人吃的东西与疾病和死亡之间建立关联。最终结果是一个关联。在“吃肉会杀死你”的报告中,大量食用红肉和加工肉类与过早死亡和慢性病风险增加相关。这是他们在队列中观察到的——观察结果。吃肉最多的人(最高五分之一,用专业术语来说)在研究期间死亡的风险比吃肉最少的人(最低五分之一)高 20%。这个关联然后产生一个假设,这就是为什么这些关联以前被称为“假设生成数据”(在这些流行病学家决定他们厌倦了他们的假设被实验推翻并跳过这一步之前)。根据我们观察到的关联,这种思维方式认为,我们现在假设吃红肉,特别是加工肉类对我们的健康有害,如果我们不这样做,我们将活得更久,更繁荣。我们假设我们观察到的关联的原因是红肉和加工肉类是不健康的食物。太棒了。我们有了我们大胆的猜测。我们下一步该做什么?

那么,既然这应该是一门科学,我们就要问,我们是否可以想象出其他不那么耸人听闻的解释来解释我们观察到的这种关联。还有什么可能导致这种关联呢?关联本身不包含任何因果信息。对于每一个有因果关系的关联,都有无限数量的无因果关系的关联,因此关联本身的事实并不能告诉我们太多。此外,这种吃肉与疾病的关联是一个微小的关联。它不是像每天抽一包烟的吸烟者患肺癌的风险比不吸烟者高 20 倍那样。它只是高 0.2 倍——是其 1/100。所以,对于肺癌,我们作为一个社会可以接受香烟导致肺癌的观察结果,因为它过去和现在都几乎不可能想象还有什么其他因素可以解释如此巨大和戏剧性的关联。实验不需要进行来检验假设,因为,信号实在是太大了,当时的流行病学家可以安全地相信它是真实的。然后,实验无论如何都进行了。人们戒烟,肺癌发病率下降了。当我在 1995 年首次在《科学》杂志上撰写关于观察性流行病学可疑性质的文章“流行病学面临其局限性”时,我指出很少有流行病学家会认真对待小于 3 倍或 4 倍风险增加的关联。(并不是说他们认为这是因果关系;只是他们认为值得研究。)这些哈佛大学的人正在讨论并获得大量媒体关注的只是 0.2 倍的风险增加。那么我们如何解释吃大量红肉和加工肉类(肺癌-香烟效应的 1/100 大小)与几乎不吃肉之间这种微小的关联呢?再说一次,我们有一个关联;我们的任务是弄清楚这两个变量——吃肉和疾病——如果它们之间存在关系,具体是如何相互关联的。以下是伟大的德国病理学家鲁道夫·魏尔肖在 1849 年的表述:他说,我们如何“确定地判断两个并存现象中哪个是因,哪个是果,或者其中一个是否是原因,而不是两者都是第三个原因的结果,甚至两者都是两个完全不相关的原因的结果”?再说一次,这是困难的部分。答案最终是我们进行实验。但我们稍后会回到这一点。首先,我们必须绞尽脑汁,看看除了吃肉之外,是否还有其他因果解释来解释这种关联。另一种思考方式是,我们正在寻找我们的方法论和设备可能欺骗我们的各种可能方式。科学的第一原则,正如传奇物理学家理查德·费曼喜欢说的,是你绝不能欺骗自己——而你最容易被欺骗。一旦我们想出了所有可能的、合理的替代假设(所以外星人被排除在外),我们就可以看看哪些假设经受住了考验:我们偏好的假设(在这种情况下是吃肉导致疾病)还是我们考虑过的许多其他假设之一。因此,让我们思考一下吃大量肉的人与不吃肉的人之间可能存在的合理差异,特别寻找也可能解释我们观察到的吃肉、疾病和过早死亡之间的一些关联的差异。Zoe Harcombe 用哈佛大学的数据出色地完成了这项工作。明显的线索是,当我们从吃肉最少的人(实际上是素食者)到吃肉最多的人时,我们看到几乎所有公认的不健康行为(吸烟、饮酒、久坐不动)都在增加,我们也看到不健康行为的指标(高 BMI、高血压等)也在增加。那么这里可能发生了什么?在我的《纽约时报杂志》关于这项研究的文章中,我讨论了一系列被称为混杂因素的效应——它们混淆了对关联的解释——这些效应可以解释两个变量之间的关联,但与变量本身在生物学上没有任何关系。其中一个混杂因素被称为依从性或坚持者效应。以下是我在文章中关于它的内容:

依从性偏差 还需要面对健康使用者偏差中更为微妙的部分。这就是依从性或遵守者效应。简而言之,当医生开处方时,遵守医嘱的人与不遵守医嘱的人不同,也更健康。这种差异可能最终无法量化。依从性效应是流行病学家普遍报告的许多有益关联的另一个合理解释,这意味着这本身就是质疑我们听到的关于健康饮食和生活方式的许多说法是否误解的原因。这个教训来自一项雄心勃勃的临床试验,名为“冠心病药物项目”,该项目于 20 世纪 70 年代启动,旨在测试五种不同药物中的任何一种是否可以预防心脏病发作。受试者是约 8500 名患有既定心脏病的中年男性。其中三分之二被随机分配服用五种药物中的一种,另外三分之一服用安慰剂。由于其中一种药物氯贝特能降低胆固醇水平,研究人员曾寄予厚望,认为它能预防心脏病。但当五年后结果汇总时,氯贝特并未显示出任何有益效果。研究人员随后考虑了一种可能性,即氯贝特之所以似乎失败,只是因为受试者未能忠实地服用处方药。结果发现,那些声称服用超过 80% 处方药的男性表现明显优于那些没有服用的人。这些忠实的“遵守者”中只有 15% 死亡,而项目研究人员称之为“依从性差者”的死亡率接近 25%。这可能被认为是相信氯贝特确实将心脏病死亡率降低了近一半的理由,但研究人员随后观察了那些忠实服用安慰剂的男性。而那些男性似乎也受益于严格遵守处方:他们中只有 15% 死亡,而那些不那么自觉的人则有 28% 死亡。“所以忠实服用安慰剂将死亡率降低了一半,”加州大学伯克利分校统计学教授戴维·弗里德曼(他在 2008 年不幸去世)说,“这怎么可能呢?嗯,定期服用安慰剂的人与其他人就是不同。其余的有点猜测。也许他们总体上更关心自己。但这种依从性效应是一个相当大的效应。” 弗里德曼说,这个故事的寓意是,每当流行病学家比较那些忠实从事某种活动的人与那些不从事这种活动的人——无论是服用处方药还是维生素,或定期锻炼,或吃他们认为健康的饮食——研究人员都需要考虑到这种依从性效应,否则他们很可能会得出错误的结论。他们会得出结论,这种行为,无论是什么,都能预防疾病和挽救生命,而他们所做的实际上只是比较两种不同类型的人,这些人实际上是不可比较的。这种现象是解释为什么护士健康研究和其他队列研究在当前使用激素替代疗法(HRT)的女性中看到了益处,但在过去使用者中不一定有益的一个特别令人信服的解释。通过区分从未使用 HRT 的女性、使用过但后来停止使用的女性和当前使用者(只有她们表现出一致的益处),这些观察性研究可能无意中将注意力集中在杰里·阿沃恩所说的“群体中的女童子军,即那些遵守医嘱的持续使用者,她们可能也在做很多其他预防性事情。”

正是这种依从性效应,使得这些观察性研究等同于“传统智慧确认机器”。我们的公共卫生机构在 20 世纪 70 年代和 80 年代,即这些观察性研究开始的时候,所提供的饮食建议与现在大致相同。当时普遍的健康意识是,我们应该少吃脂肪和饱和脂肪,因此少吃红肉(这也会导致结肠癌),当然也少吃加工肉类,多吃水果、蔬菜和全谷物。因此,在队列中研究的人可以分为两组:遵守这些建议的人——正如阿沃恩所说的“女童子军”——和不遵守的人。现在,当我们观察那些避免红肉和加工肉类的人,并将其与大量食用它们的人进行比较时,我们可以将其视为有效地比较“女童子军”和“非女童子军”,即遵守传统智慧的人和不遵守的人。而依从性效应直接告诉我们,我们应该看到一种关联——“女童子军”应该显得更健康。(实际上,她们应该比 Willett 等人现在报告的更健康,这表明还有其他因素在起作用——也许是没有吃足够的红肉?)换句话说,那些避免红肉和加工肉类的人是那些从根本上关心自己健康并有精力(也许还有健康和经济保障)采取行动的人。而那些在 20 世纪 80 年代和 90 年代大量食用红肉和加工肉类的人则不是。一个例子说明了这种建议如何影响人们的行为:我在 20 世纪 90 年代住在洛杉矶,那里健康意识行为是常态,我敢打赌,在整个 90 年代,我一年吃的培根不超过半打份,牛排不超过两块。全都是去皮鸡胸肉和鱼,以及太多意大利面和谷物(燕麦片或其他无脂谷物),还有成千上万个不带蛋黄的蛋清。因为我们认为那就是健康的。

因此,当我们比较在此期间大量食用肉类和加工肉类的人与实际上是素食者的人时,我们比较的是本质上不可比较的人。我们比较的是有健康意识的依从者与非依从者;是那些关心自己健康并有收入和精力去改善健康的人与那些不关心的人。由于依从性效应,依从者在这些队列中应该总是显得更健康。任何对 BMI、血压、吸烟状况等进行的“校正”都无法纠正这种依从性效应,因为这种效应是所有这些无法衡量或尚未衡量的健康意识行为的产物。我们之所以知道这一点,是因为即使在随机对照试验中,这种效应也存在,而这种效应正是在随机对照试验中首次被发现的。当哈佛大学的人坚持说他们可以“纠正”这种效应,或者说它不是一个因素时,他们是在自欺欺人。我们知道他们是在自欺欺人,因为实验性试验不断证实这一点。这就是我 2007 年文章的中心思想。正如一位朋友几年前向我描述的那样,当这些队列研究比较他们吃肉最多的五分之一人群与吃肉最少的五分之一人群时,他们就好像在比较每周在 Alice Water 著名的 Chez Panisse 餐厅用餐、练习瑜伽的伯克利素食者,与来自西弗吉尼亚州的卡车司机,后者认为在当地卡车停靠站吃炸鸡牛排(配土豆、啤酒,可能还有一些加了奶油的甜薯派)就是晚上出去玩的想法。研究人员可以暗示,正如 Willett 和他的同事所做的那样,这些人发病率和死亡率不同的最可能原因是他们吃的肉量;但这仅仅是因为这些观察性流行病学家必须相信这一点,才能证明数十年工作和花费数千万甚至数亿美元进行这些试验是合理的。而不是因为这是最可能的解释。更有可能的是,这种差异是由与吃肉或实际素食主义相关的所有行为造成的——无论他们是否是“女童子军”。至于巧克力研究,也是同样的故事。你只需要问自己,谁吃很多巧克力,或者在这类研究中向研究人员承认自己吃很多巧克力?以及那是瘦人、健康人的可能性有多大?事实上,我有一位在加州大学洛杉矶分校工作的流行病学家朋友,他身材高大、瘦削、活跃,他知道我对糖的看法——可能是有毒的——所以每次我们一起吃饭时,他都会特意吃两三个甜点,不吃开胃菜或主菜。他可以这样做,因为他的基因倾向,所以他就这样做了。我相信我不能,所以我不会。所以很有可能这些流行病学家从他们的研究中了解到的是,瘦人可以吃巧克力而不发胖(至少目前是这样),所以他们吃了。而我们这些容易发胖的人则远离它,因为我们有一种很强的感觉,认为它对我们不好,会让我们更胖。在我发表基于这些观察性研究的任何其他主张(更不用说吃更多巧克力会让我变瘦的主张)之前,我至少要花几年,甚至几十年,试图弄清楚我可能是在自欺欺人。这就是为什么最好的流行病学家——我引用在《纽约时报杂志》文章中的那些人——认为这种营养流行病学是伪科学。像哈佛大学或加州大学圣地亚哥分校研究人员进行的观察性研究,提出正确因果假设的频率,就像一个停摆的时钟给你正确时间一样。偶尔会发生,但如果没有进行实验来检验所有相互竞争的假设,就无法判断何时发生。这是一个悲哀的局面。现在让我们回到进行实验的想法——即我们最终如何解决这种意见分歧。这就是科学。进行实验。对于吃肉与发病率和死亡率之间的微小关联,我们至少有两种合理的解释。一种是肉本身造成的。另一种是与吃肉相关的行为造成的。所以进行一个实验,看看哪个是正确的。从一个受试者队列开始,将他们随机分配到两种饮食之一:一种富含红肉和加工肉类,另一种则不是——一种主要是素食的饮食。通过随机将受试者分配到这两种干预措施之一,我们基本上消除了可能与您自由选择是否成为素食者(或大部分素食者)或食肉者相关的行为(和社会经济、教育等)因素。这些实验实际上已经完成了。它们是比较阿特金斯饮食和其他更传统的减肥饮食(如美国心脏协会第一步饮食、地中海饮食、区域饮食、欧尼斯饮食等)的试验。这些传统的减肥饮食倾向于在不同程度上限制肉类消费,因为它们限制脂肪和/或饱和脂肪的摄入,而肉类中含有大量脂肪和饱和脂肪。欧尼斯的饮食是极端的例子。当这些实验完成时,富含肉类、富含培根的阿特金斯饮食几乎总是表现更好,不仅在减肥方面,而且在心脏病和糖尿病风险因素方面也是如此。我在《我们为什么发胖》的第 18 章“健康饮食的本质”中详细讨论了这一点。斯坦福 A 到 Z 研究是这些实验的一个很好的例子。在实验过程中(本例中为两年),随机分配到阿特金斯式富含肉类和培根饮食的受试者更健康。这就是我们想知道的。最终,我们面临一个选择,即我们相信什么:观察结果,还是旨在检验这些观察结果的实验。优秀的科学家总是会告诉你相信实验。这就是他们进行实验的原因。

图片来源:C

广告

巧克力棒

营养研究员烤肉来自 Shutterstock;女童子军海报来自美国女童子军

广告

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章