广告

伤痕累累的大脑还是闪亮的数据统计:CCA 的危险

仔细研究PNAS新论文中的一些统计数据。

Google NewsGoogle News Preferred Source
研究罐中的大脑。图片来源:SubstanceTproductions/Shutterstock

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

最近,一篇发表在《美国国家科学院院刊》(PNAS)上的论文在推特上引起了一些关注。它的标题是《童年创伤史与重度抑郁症中的大脑异常连接相关》(Childhood trauma history is linked to abnormal brain connectivity in major depression),作者Yu等人报告称(根据《重要声明》):

广告

重度抑郁症(MDD)患者的童年创伤史与大脑静息态网络(RSN)连接异常存在显著的主要关联。

作者接着指出,尽管“脑部成像是在创伤发生几十年后进行的,但功能失连接性中仍可发现过往创伤的‘疤痕’。”现在,我认为这种关于“显著疤痕”的说法有些夸大,但在本例中,使用一种统计方法也存在一个更广泛的问题,这种方法很容易导致误导性解释——典型相关分析(CCA)。


首先,我们将看看Yu等人的研究内容。在189名未服药的抑郁症患者样本中,Yu等人使用fMRI测量了大脑的静息态功能连接。然后他们对此进行分析,为每个人提供了总共55个连接强度。这55个测量值中的每一个都反映了两个脑网络之间的功能耦合。

对于每位患者,Yu等人还进行了问卷调查,测量了人格、抑郁和焦虑症状以及创伤史。然后将这些测量结果压缩成4个临床群组:(i)焦虑性痛苦(ii)积极特质(iii)身体和情感忽视或虐待,以及(iv)性虐待。

这就是CCA的用武之地。CCA是一种提取两组变量之间统计关联的方法。在这里,一组是55个大脑连接测量值,另一组是4个临床群组。Yu等人的CCA揭示了两组变量之间存在一个单一的强关联(或“变异模式”)。

(图片来源: Yu et al. 2019)

Yu 等人 2019

对于一项脑-行为关系研究而言,0.68的关联系数非常大。通常情况下,这种结果无疑会证明“显著关联”这个术语是合理的。

但结果并没有看起来那么令人印象深刻,因为这是一个CCA结果。CCA保证能找到两组变量之间“最佳”的可能相关性,本质上是通过以任何能最大化关联系数的方式(通过加权和)组合变量。换句话说,它保证会过拟合和高估关联。

Yu等人证实了这一点,他们发现,使用置换程序(消除了任何真实关联)时,CCA仍然产生了平均关联系数r=0.55。在5%的情况下,CCA幸运地达到了r=0.62或更高。请记住,在这种情况下,“真实”相关性为零!CCA能够凭空变出0.55或更高的强相关性。

观测到的r=0.68的关联系数“是”统计显著的,因为它高于95%的零假设值0.62,但高出不多。换句话说,虽然大脑和行为变量之间似乎确实存在某种真实关系,但它几乎肯定比看起来要弱得多。

(Yu 等人在他们的论文中还进行了抑郁症患者与健康对照组的比较,这不依赖于 CCA,我在这里不做讨论。)

广告

那么,如果CCA保证会过度拟合数据,它的用途是什么呢?嗯,只要您有两个(或更多)独立数据集,它就可以很有用,允许您在一个数据集推导出的CCA模型在另一个数据集中测试其有效性。CCA会过度拟合第一个数据集,但通过在第二个数据集进行测试,我们可以知道相关性中有多少是真实的。

不幸的是,Yu 等人并非唯一一篇采用单样本 CCA 方法的论文。一篇被广泛引用的论文,Smith 等人 (2015) 发表于《自然神经科学》杂志,Yu 等人多次引用了该论文,也采用了相同的方法。(我当时曾在博客上讨论过,当时还相当不怀疑)。

广告

Smith 等人比较了大脑功能连接与行为和生活方式变量,发现了一种 CCA 变异模式,其相关系数高达 r=0.8723。但在置换零假设下的 95% 显著性阈值竟然达到了几乎同样惊人的 r=0.84!因此,与 Yu 等人一样,观测到的结果是显著的,但仅仅比 CCA 偶然产生的结果略好一点。

事实上,Smith 等人通过对 80% 的数据集进行 CCA(“训练集”)并在剩余的 20% 数据中进行测试,从而检验了 CCA 的有效性。这是一种粗略地近似使用第二个数据集的方法。Smith 等人发现,在剩余数据中的相关系数为 r=0.25——这是一个更为温和的结果,尽管仍然存在一些关联。

我想说,这种训练/测试分析应该是任何神经科学 CCA 论文的最低要求。我怀疑,如果将其应用于 Yu 等人的案例,相关性会很小。

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章