广告

假阳性问题

探讨数据收集中的灵活性如何导致心理学研究中令人警惕的假阳性发现,以及提出的解决方案。

作者:Razib Khan
Google NewsGoogle News Preferred Source

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

假阳性心理学:数据收集和分析中未披露的灵活性允许将任何结果呈现为显著:

广告

在本文中,我们完成了两件事。首先,我们表明,尽管经验心理学家名义上认可较低的假阳性发生率(≤ 0.05),但在数据收集、分析和报告中的灵活性会急剧增加实际的假阳性发生率。在许多情况下,研究人员更有可能错误地找到效应存在的证据,而不是正确地找到效应不存在的证据。我们通过计算机模拟和一对实际实验来证明,积累(和报告)假假设的统计显著证据是多么不可接受的容易。其次,我们提出了一个简单、低成本、直接有效的基于披露的解决方案来解决这个问题。该解决方案包括作者的六项具体要求和审稿人的四项指南,所有这些都对出版过程施加了最小的负担。

由于该论文有付费墙,我已将解决方案剪切并粘贴到下方。

我们为作者提出了以下六项要求。

  1. 作者必须在开始收集数据之前决定终止数据收集的规则,并在文章中报告该规则。 遵循此要求可能意味着报告功效计算的结果,或披露任意规则,例如“我们决定收集 100 个观察值”或“我们决定在学期结束前收集尽可能多的观察值”。规则本身是次要的,但必须提前确定并报告。

  2. 作者每组必须至少收集 20 个观察值,否则必须提供令人信服的数据收集成本理由。此要求为第一个要求提供了额外的保护。每组少于 20 个的样本的功效不足以检测大多数效应,因此通常没有充分的理由预先决定收集如此少量的观察值。因此,较小的样本更有可能反映中期数据分析和灵活的终止规则。此外,正如图 1所示,较大的最小样本量可以减轻违反要求 1 的影响。

  3. 作者必须列出研究中收集的所有变量。此要求可防止研究人员仅报告收集到的许多测量值中的一个方便的子集,从而使读者和审稿人能够轻松识别可能的“研究者自由度”。由于要求作者仅列出这些变量而不是详细描述它们,因此此要求仅会使文章的长度增加几个字。我们鼓励作者以“仅”开头,以向读者保证该列表是详尽的(例如,“参与者仅报告了他们的年龄和性别”)。

  4. 作者必须报告所有实验条件,包括失败的操作。此要求可防止作者选择性地仅报告与他们假设一致的结果的条件比较。与上一个要求一样,我们鼓励作者包含“仅”一词(例如,“参与者被随机分配到仅三个条件之一”)。

  5. 如果删除了观察值,作者还必须报告包含这些观察值的统计结果。此要求使发现依赖于删除观察值的程度透明化,对作者施加适当的压力来证明删除数据的合理性,并鼓励审稿人明确考虑此类删除是否合理。正确解释一个发现可能需要排除一些数据;此要求仅旨在提请注意那些基于事后决定(哪些数据要排除)的结果。

  6. 如果分析包含协变量,作者必须报告不包含协变量的分析的统计结果。报告无协变量的结果可以使发现依赖于协变量的程度透明化,对作者施加适当的压力来证明使用协变量的合理性,并鼓励审稿人考虑是否包含它是有道理的。即使需要协变量才能检测到某些发现,这些发现可能仍然具有说服力,但应对那些尽管进行了随机分配但确实依赖于协变量的结果进行更严格的审查。

审稿人指南

我们为审稿人提出了以下四项指南。

  1. 审稿人应确保作者遵守要求。审稿团队是科学界的守门人,他们应鼓励作者不仅排除其他解释,而且更有说服力地证明他们的发现并非仅仅源于偶然。这意味着优先考虑透明度而非整洁性;如果一项出色的研究因某个特殊的排除项或不一致的条件而部分受损,那么这些不完美之处应被保留。如果审稿人要求作者遵守这些要求,他们就会遵守。

  2. 审稿人应对结果中的不完美之处更加宽容。研究人员利用“研究者自由度”的一个原因是,我们作为审稿人常常不合理地期望每种数据模式都(显著地)如预期。证据不足但结果完美的研究才应该引起额外的审查。

  3. 审稿人应要求作者证明他们的结果不依赖于任意的分析决定。即使作者遵循了我们所有的指南,他们仍然会面临任意的决定。例如,他们应该从最终结果中减去因变量的基线测量值,还是应该使用基线测量值作为协变量?当没有明显正确的方法来回答这类问题时,审稿人应要求提供替代方案。例如,审稿报告可能包括这样的问题:“如果基线测量值被用作协变量,结果是否仍然成立?”同样,审稿人应确保任意决定在不同研究中得到一致使用(例如,“对于研究 3,如果性别作为协变量输入,是否像在研究 2 中那样,结果是否仍然成立?”)。5 如果一个结果只在一种任意规范下成立,那么所有相关人员将学到很多关于该效应稳健性(或缺乏稳健性)的知识。

  4. 如果数据收集或分析的理由不令人信服,审稿人应要求作者进行精确复制。如果审稿人对某个“研究者自由度”的理由不满意,或者对稳健性检查的结果不信服,审稿人应要求作者对研究及其分析进行精确复制。我们认识到这是一个成本高昂的解决方案,应该选择性使用;但是,“从不”过于选择性。

为了先发制人地回应愤怒和冒犯的心理学教授们:这个问题并非仅限于他们的学科。它可能在医学中是一个更大的问题,因为它耗费了我们大量的金钱,并且很可能导致人们死亡。

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章