深入了解美国刑事司法背后的法医学

这个故事最初发表在2021年11月/12月刊，题为“修复法医学”。点击这里订阅阅读更多类似的故事。

统计研究通常不需要武器。但是为了开发他们最新的算法，爱荷华州立大学的统计学家Alicia Carriquiry和Heike Hofmann需要从少量手枪中发射数千发子弹。于是他们亲自操刀，前往靶场。

在近一年的时间里，Carriquiry和Hofmann在治安官的监督下，将一发又一发的子弹射入一个装有凯夫拉纤维的管子。每次射击后，他们都会取出子弹，将其装入贴有关键数据标签（枪支、枪管、射击次数）的塑料袋中。

“如果几年前你问我是否会进行这种数据收集，我一定会说，‘你疯了，’”Carriquiry说。

这不仅仅是子弹。在过去的几年里，这些教授和他们的合作者已经收集了160双磨损的运动鞋，2000多份笔迹样本和129块沾满猪血的海报板。经过扫描和数字化处理，这些物品成为了犯罪现场证据研究中前所未有的数据。

在侦探剧和现实生活中，分析指纹和勒索信等线索的任务通常由法医鉴定员而非统计学者承担。但Carriquiry和Hofmann属于一个学术圈外运动，他们正在调查法医学的基础和合法性。一个公开的秘密推动着他们的工作：指纹、血迹和其他形式的法医证据在未经科学审查的情况下进入了司法系统，并且此后基本上避开了审查。大约一个世纪前，由执法部门而非科学家经营的犯罪实验室开始开发将线索与罪犯联系起来的方法，例如指纹鉴定。但从未进行过同行评审研究来确定这些方法的有效性、可重复性和错误率——这些是区分科学与猜测的关键标准。

“他们是如何在几十年里蒙混过关的，这令人费解，”伦敦大学学院认知神经科学家Itiel Dror说，他也是一位揭露了法医学缺陷的学者。

2009年，一份由国家研究委员会（NRC）委员会撰写的350页的重磅报告揭露了这种站不住脚的科学。该委员会由科学家、法官、律师和法医从业者组成，他们用了两年时间审查了该领域。他们一致得出结论：只有直接的DNA鉴定符合科学标准。其余的：“基本上是魔法，”Carriquiry说。

AP 97777654840 — Keith Harward，2016年作为自由人挥手示意，他因有缺陷的咬痕证据将其与谋杀案联系在一起，在监狱中度过了33年。（图片来源：Richmond Times-Dispatch/Alamy）
里士满时报/阿拉米

所谓的“巫术”毁掉了无数生命。“无辜项目”（Innocence Project）是一个非营利性法律组织，他们发现，自1992年以来，该组织通过DNA检测推翻的美国约一半冤假错案都与可疑的法医学证据有关，其中包括14起死刑判决。“国家免罪登记处”（National Registry of Exonerations）是一个由三所大学维护的公共数据库，列出了1989年至2021年间约670起无罪释放的案件，这些案件最初都涉及虚假或误导性的法医证据，从虚假的咬痕到模糊的指纹。总的来说，无辜者在监狱中饱受煎熬了数千年，而真正的罪犯却逍遥法外。

学者们提出的解决方案可以帮助修复法医学。然而，许多犯罪实验室抵制变革，将错误归咎于个别“害群之马”，而法院则继续声称先例保护法医证据。最终，科学家们正在学习他们可以跑完这场比赛的第一阶段——建立有效性和可靠性。然后，他们必须将接力棒传给法官和律师，并希望他们能将改革进行到底。

寻求基于证据的解决方案

1982年，基思·哈沃德在美国海军服役期间，被判在弗吉尼亚州纽波特纽斯犯有强奸和谋杀罪。在六名法医鉴定人员得出结论说他的牙齿与受害者身上的咬痕相符后，哈沃德在监狱中度过了33年。“无辜项目”在2016年进行了DNA检测，洗清了哈沃德的罪名，并将罪行与另一名在此期间犯下更多罪行的水手联系起来。多年来，咬痕分析已导致至少25起有记录的冤假错案或起诉，而学者们已广泛驳斥了其有效性。多项实验表明，鉴定人员无法可靠地区分咬痕和其他瘀伤，更不用说将这些痕迹与特定人的牙齿联系起来了。

像这样的关键研究源于2009年的NRC报告，该报告引发了一些强烈抗议和改革倡议，然后碰壁。加州大学欧文分校犯罪学、法律和社会学教授西蒙·科尔说：“它们未能渗透到法院。”几年后，总统科学技术顾问委员会（PCAST）2016年的报告记录了法医证据科学标准方面的总体进展甚微。2017年，奥巴马时代设立的改革派咨询小组被特朗普司法部终止——此举得到了全国地区检察官协会的赞扬。

CSAFE05 — 现在，软件以及枪械鉴定专家可以并排分析图像，比较子弹或弹壳上的微观痕迹。（图片来源：CSAFE提供）
由CSAFE提供

提到像基于咬痕的鉴定这种 discredited 方法，Carriquiry 感到非常愤怒。“我的天哪，这简直就是不科学和未经证实，”她说。2016年，德克萨斯州法医科学委员会建议暂停在刑事司法中使用咬痕证据。然而，由于先例，美国各地的法院继续采纳咬痕证据。

对于那些在法律体系内推动法医改革的人来说，“这就像是不断地碰壁，”宾夕法尼亚州立大学和亚利桑那州立大学的名誉法学教授大卫·凯（David Kaye）说，他曾担任过许多关注法医科学标准的联邦委员会成员。

与此同时，学者们继续前进，进行实验和分析数据，以改进法医学。Carriquiry解释说：“我们只想置身事外，做好所有背后的科学研究。”她领导着一个处于这项努力前沿的联盟——法医证据统计与应用中心（CSAFE），该中心拥有80多名来自多所大学的研究人员。该小组成员包括物理学家、工程师和计算机科学家，以及法律、犯罪学和法医学教授。

2015年该小组成立时，CSAFE受到了法医从业者（在实际案件中检查实际证据的专业人士）的冷遇。他们担心，没有实践经验的学者会来破坏他们的方法和生计。CSAFE领导层挥舞着白旗，承诺建立伙伴关系，并在过去六年得到了证实。专业人士提供专业知识和指导。教授们承担了繁重的工作，这些工作对于案件量大、资源有限的鉴定人员来说是不可行的。

德克萨斯州的法医鉴定员斯蒂芬妮·卢尔（Stephanie Luehr）说：“学术界进行的研究令人惊叹。”“只要他们咨询从业者。”卢尔专攻枪械鉴定，这项技术可以追溯弹药的出处。CSAFE的研究可以改进卢尔和其他专业人员的工作方式——并缓解2009年NRC和2016年PCAST报告中提出的严峻担忧。

其中一个普遍存在于两份报告中的担忧是，流行的法医鉴定学科是公然主观的。受过训练的鉴定人员判断两份证据是否足够相似以认定它们匹配——例如，犯罪现场的指纹和嫌疑人的指纹。但是，这种模糊的“足够相似”的阈值意味着，在相同的证据下，两位专家可能会得出不同的结论。

这种主观性让科学家们很不适应。“你需要鉴定员的眼睛和大脑才能得出结论，”与Carriquiry一同射击子弹的爱荷华州统计学家Hofmann说。

NRC和PCAST报告还警告称，大多数法医方法从未经过概念验证研究，以确定其有效性和错误率。在科学领域，这些是必备条件。没有这些检查，没有人知道所谓的匹配错误率是多少，以及真正的匹配被遗漏的频率。

弹道学统计

CSAFE的科学家们旨在弥补这些不足，并利用尖端的客观方法来降低法医学的主观性。他们特别热衷于开发能够自动为线索对分配相似度分数的软件程序：一个介于0到1之间的值，其中1表示几乎确定的匹配，0.6或0.5表示不确定性更大，0表示物品之间几乎没有相似之处。两位专家将无法再对相同的子弹、指纹或笔迹样本得出不同的结论；他们将通过CSAFE的软件处理这些证据，并获得相同的相似度分数。

在此方面，CSAFE在子弹匹配方面取得了最大进展。当枪支射击时，枪管中的微小缺陷会在子弹上留下独特的刻痕。像Luehr这样的鉴定人员使用显微镜目视比较两颗子弹上的刻印特征——一颗来自犯罪现场，另一颗是嫌疑人枪支的测试射击。然后他们判断样本是否来自同一把枪，是否来自不同的枪，或者答案是否不明确。

现在，由于CSAFE的新软件，这个决定可以基于一个客观的分数。为了开发这个程序，Hofmann和同事们对从CSAFE射击活动和合作警察部门收集的子弹进行了3D扫描。然后，他们将成对的扫描数据输入到一个机器学习算法中，同时输入一个关键变量：这些子弹是否是来自同一把枪的配对，还是来自不同枪的非配对。通过这个数据集的训练，计算机学会了读取子弹的微观凹槽和划痕，从而计算出两颗子弹是配对的可能性。

现在，当生成的软件收到神秘子弹的扫描件（这些子弹可能来自同一支枪，也可能不来自同一支枪）时，它可以为它们分配一个介于0到1之间的相似度分数。这款新软件与鉴定人员一样，比较子弹上的微小划痕。但与人类思维不同的是，无论谁进行分析，该程序都会为给定的子弹对输出相同的分数。

笔迹中加入概率

与枪械鉴定一样，笔迹分析通常也需要主观的视觉评估。鉴定员通过比较笔迹样本来判断这些文本是否出自同一人之手。这个结论在涉及勒索信、遗书和伪造文件的案件中可能非常重要。

shutterstock 1101195497 — 图片来源：LiliGraphie/Shutterstock
LiliGraphie/Shutterstock

但笔迹还带来了额外的挑战。枪管通常会在子弹上留下一致的痕迹，而一个人的笔迹却因日期、早晚和环境而异。想想你的购物清单和写给奶奶的信之间的笔迹差异。为了使相似度分数计算有效，一个人笔迹中日常、笔记间的波动必须比两个人笔迹之间的差异更细微。

CSAFE的科学家们一直在构建必要的数据集来验证这一前提。在爱荷华州立大学攻读博士学位期间，统计学家Amy Crawford负责收集了2400多份笔迹样本。她的90名参与者在相隔数周的三个场合中，书写了三个提示。其中一个提示《伦敦信》包含了所有字母、数字1到9和常见标点符号。把所有这些都塞进去，就形成了一些笨拙的散文，比如“L. McQuiad博士和Robert Unger先生，今晚乘坐Y.X.特快列车离开了。”为了捕捉自然流畅的笔迹，Crawford还选择了一段《绿野仙踪》的摘录。第三个提示是一个短语，是窃贼可能匆忙写下的那种。

目前尚不清楚相似度分数是否适用于笔迹分析，但克劳福德和她的同事们已经做出了次佳的方案。他们在二月份发表在《统计分析与数据挖掘》上的软件，可以估计一组特定潜在作者之间的作者身份概率。例如，从100名候选人中，它能识别出最有可能写出某份文件的人。

分析软件将单词分解成由端点、急转弯和相交线区分的片段。这些字符通常对应字母表中的字母，但并非总是如此。相似的字符被分成大约40个簇，然后算法计算每个作者使用某个簇的频率以及在该簇内的变化。例如，一个簇可能包含所有偏离垂直线几度并略微弯曲的单行。利用这些数据，软件可以从一组嫌疑人中计算出最可能的作者。这可能有助于解决真实案件，包括美国最著名的绑架案之一。

1956年，贝蒂·温伯格把她一个月大的儿子彼得放在长岛郊区家中的露台上的婴儿车里。她进去片刻，回来时发现婴儿车空了，只留下一张勒索信——十几行匆匆写就的文字，带着歉意，要求2000美元赎金以换取小彼得的生命。

仅凭这些证据，以及六天后留下的第二张纸条，联邦调查局展开了艰巨的搜寻。他们审查了近200万份来自学校、工厂和政府机构的官僚文件，以寻找绑架者的笔迹。六周后，特工们在一份曾因私酒酿造被捕男子的假释表格上发现了类似的涂鸦。面对勒索信，他招供了，但已经把彼得遗弃在灌木丛中。侦探们后来找到了婴儿的尿布别针和腐烂的遗骸。

克劳福德认为CSAFE算法会加快搜索速度，甚至可能足以挽救这个孩子。调查人员可以一次性向计算机输入数百份文件，程序会在每组文件中识别出最可能的作者。这将把嫌疑人范围缩小到几天内，而不是几周。

挑战指纹的绝对可靠性

学者们还对指纹（公众最喜欢的法医证据形式）提出了批评。指纹反映了细微的真皮纹线，这些纹线在受孕后三到六个月形成，并在人死后依然存在。尽管其形成过程尚未完全理解，但遗传学在其中发挥了作用。子宫内和胎儿神经的局部压力也起作用。因此，即使是基因完全相同的双胞胎——通过核DNA无法区分——他们的指尖也有独特的螺旋纹、箕形纹和弓形纹。给这些婴儿的手指涂上墨水，它们会留下不同的印记。

加州大学欧文分校教授、CSAFE成员科尔说，看到一个清晰的指纹，“你会发现它多么复杂。”你可能会立即想到：“嗯，这一定是一个非常强大的识别器。”这种观念可以追溯到很久以前，正如科尔在2001年出版的《嫌疑人身份：指纹和刑事识别史》一书中所发现的那样。

在公元前220年的古代中国，人们就用刻有自己名字和指纹的泥印来认证文件。对指纹能侦破悬案的现代理解则出现于19世纪末。在1880年《自然》杂志上发表的第一篇阐述这一观点的科学论文中，医疗传教士亨利·福尔兹报告了他成功应用该方法：“在一个案例中，油腻的指纹揭示了谁喝了一些纯酒精。”指纹很快进入流行小说，成为马克·吐温故事和亚瑟·柯南·道尔笔下的夏洛克·福尔摩斯故事中的关键线索。

shutterstock 727380676 — 图片来源：Nicola Forenza/Shutterstock
尼古拉·福伦扎/Shutterstock

1910年，指纹证据首次出现在法庭上，并于1911年被美国上诉法官裁定可采纳。1985年的一份联邦调查局手册将该识别方法描述为“万无一失”。2003年，联邦调查局指纹部门负责人多次在法庭证词、《洛杉矶时报》的一篇文章和《60分钟》节目中坚称错误率为“零”。

看到联邦调查局特工在媒体上的说法，科尔根据他的书研究知道那不是真的。2005年，他在《犯罪法与犯罪学杂志》上发表了一篇题为“不止为零”的文章，详细记录了22起公开记录中已知的错误指纹分配案例。在一个案例中，一名鉴定人员将一具身份不明尸体的拇指指纹与一名妇女在加利福尼亚州治安官办公室备案的指纹相匹配。执法部门通知了她的母亲，母亲悲痛欲绝并准备了葬礼。然后，这名失散的女儿在北加利福尼亚被发现。她没有死，只是被错误识别了。

科尔的名单中还包括最引人注目的指纹错误：联邦调查局逮捕了俄勒冈州律师布兰登·梅菲尔德，指控他涉嫌参与2004年马德里火车爆炸案，该爆炸案造成191人死亡。梅菲尔德没有十年内出国旅行的记录。但联邦调查局鉴定人员将马德里一个装有炸药的袋子上的指纹与他们数据库中梅菲尔德的指纹相匹配。根据一份政府宣誓书，联邦调查局认为该匹配是“百分之百的识别”并“经过验证”。逮捕两周后，联邦调查局撤回了匹配结果并释放了梅菲尔德，梅菲尔德以宗教偏见为由起诉联邦调查局，因为他信奉穆斯林。西班牙国家警察找到了一名男子的指纹，他的指纹与西班牙犯罪现场的指纹更相似。

2006年，认知神经科学家德罗尔的研究进一步揭示了该方法的错误性。他向专家鉴定员展示了两对指纹，这些指纹此前已在真实法庭案件中进行过分析，并宣誓确认为明确匹配。在实验中，鉴定员并未被告知他们以前见过这些指纹，德罗尔提供了额外的虚构细节，为嫌疑人提供了不在场证明。大多数鉴定员的结论改为“不匹配”或“不确定”。

“所有人都感到震惊，”德罗尔回忆说，“我觉得自己像个告密者。”在发表最初的实验后，德罗尔收到了来自法医从业者的潮水般的仇恨邮件和人身攻击。但在过去的15年里，一项又一项研究都强化了他的观点：系统性、个人和无意识的偏见影响着主观方法，如指纹匹配。渐渐地，法医从业者接受了这一点并开始接受改革。

这项研究也揭示了提高准确性的方法。德罗尔说，一个简单的解决方案是只向法医从业者提供他们需要检查的相关信息，不多不少。他们不应该听到案件的背景故事；那可能会影响他们的判断。枪械鉴定员卢尔同意这是一个合理的预防无意识偏见的措施：“你了解得越少越好，”她说。

除此之外，指纹本身的质量对正确判读的可能性有很大影响。而完美的指纹很少出现在犯罪现场。Carriquiry说：“罪犯不会好心地在某个地方留下完美的指纹。”

AP 07103105544 — 2004年马德里火车爆炸案后，联邦调查局根据指纹证据错误逮捕了一名嫌疑人，声称“百分之百识别”——后来出现了更好的匹配。（图片来源：美联社）
美联社

2018年发表的一项研究审查了犯罪实验室给员工进行的熟练度测试，要求他们将大约十几枚指纹与已知答案进行匹配。对1995年至2016年期间进行的年度测试样本显示，7%的参与者至少漏掉了一个真实的匹配，7%的参与者错误地将不同人的指纹匹配起来。这还是在处理相对清晰的指纹，而不是实际的犯罪案件时。

在现实世界中，鉴定人员使用局部、模糊、低质量的图像，在州执法机构的数百万条记录数据库中搜索匹配项。国家机构数据库包含多达一亿个选项。在这里，新的算法也能发挥作用。2018年，美国陆军刑事调查实验室发布了FRStat，这是第一个广泛可用的软件，用于计算指纹集的相似度分数。

证人席上的统计数据

随着研究人员改进法医学，一些诉讼律师感到受到建议改革的阻碍，这些改革在实践中收效甚微。毕竟，法医结论，例如匹配子弹凹槽，只是整个案件的一部分。用卢尔的话说，“我只为证据说话。我不负责将枪放在某人手中。”这取决于检察官审查所有证据，当他们认为嫌疑人有罪时，提出一个完整而真实的故事——一个将嫌疑人置于犯罪现场，手持武器，心中有动机的故事。如果故事的其余部分成立，法医错误的几率是百万分之一与百分之一有关系吗？

fingerprints — 犯罪现场发现的潜在指纹很少是完美的。这些模糊和不完整的样本出现在2011年《国家科学院院刊》的一项研究中。在该研究的169名鉴定人员中，有5人在比较这些指纹时出现了假阳性。（图片来源：《国家科学院院刊》2011年5月研究，法医潜在指纹判定的准确性和可靠性）
国家科学院院刊研究，2011年5月，法医潜在指纹判定的准确性和可靠性

经验丰富的检察官马特·墨菲对此表示怀疑。在他加州奥兰治县地方检察官办公室工作的26年里，墨菲处理了200多起刑事审判。他见过令人心痛的强奸、连环谋杀案，以及一起涉及喷灯、漂白剂和莫哈维沙漠中更糟糕情况的绑架和酷刑案。律师们经常处理噩梦般的现实，这使得对统计算法的担忧听起来像是象牙塔里的吹毛求疵。

“你的目标是伸张正义，”墨菲说。他补充说，这首先要求检察官只起诉有确凿证据支持的案件。在担任地区检察官期间，墨菲的档案柜里堆满了他在更多线索出现之前拒绝起诉的案件。“你永远不会读到所有被拒绝的案件，”他说。

以1988年马林达·戈弗雷·吉本（Malinda Godfrey Gibbon）谋杀案为例，这位怀孕的新婚妻子在加利福尼亚州科斯塔梅萨的家中被残忍强奸，并被菜刀刺死。调查人员在吉本的冰箱上发现了一个指纹，该指纹与国家数据库中一名已被定罪的重犯的指纹相符。但后来发现，这名男子在田纳西州制造冰箱的生产线上工作。这个无辜的人从未踏足加利福尼亚。这起悬案搁置了15年，直到DNA将谋杀案与另一名男子联系起来。直到那时，墨菲才将此案提上法庭，最终在2014年判处死刑。

对于那些确实进入法庭的案件，检察官必须说服陪审团嫌疑人有罪。律师们都知道复杂的统计数据无法说服陪审员。真正有效的方法是：展示嫌疑人和犯罪现场看似难以区分的指纹或DNA图谱的巨大放大图像。

“如果[陪审员]看着那个，你可以告诉他们任何你想要的统计数据。也许有用。也许没用。但我肯定会要求他们更多地根据自己所看到的做出决定，”墨菲解释说。“你要相信统计学家，还是你自己的欺骗性眼睛？”

陪审员的思维

墨菲在审判席上对统计数据的看法，经过数十年的案件辩论而巩固，得到了数据的支持。CSAFE研究人员进行了模拟审判实验，数百名参与者根据法医证词的不同微调来判断同一个案件。讽刺的是，研究表明，包含CSAFE最先进统计数据的证词并未改变陪审团的意见。

部分原因是，大多数人误解了数学概率。一项实验包含一个关于基本统计学的四道题测验。在1,450名参与者中，超过60%的人自评“对百分比的掌握程度尚可到非常好”。然而，只有不到2%的参与者正确回答了所有四道题。（你可以尝试在右侧的蓝色框中回答其中两道题。）

但实验揭示了陪审员思想深处的另一个障碍。对于指纹，人们倾向于相信潜在的匹配。统计数据的类型、强度和措辞无关紧要。杜克大学法学教授、CSAFE律师和陪审团对法医证据看法的研究负责人布兰登·加勒特说：“他们多年来一直听说证据是独一无二的，或完美无缺，或绝对可靠的。”

不过，其他信息可能会动摇他们的信念。加勒特说：“结论的措辞不如向人们解释这些证据是会出错的重要性。”他发现，当专家证人在宣誓后声明指纹可能会被错误识别时，陪审团的意见发生了转变。根据加勒特于2019年发表在《行为科学与法律》杂志上的一篇论文，如果陪审员听说专家在犯罪实验室进行的常规熟练度测试中得分不完美，怀疑也会增加。

评估证据可靠性的重担落在律师身上，而不仅仅是为了他们能够巧妙地说服陪审员。事实是，只有不到10%的刑事案件最终会进入陪审团审判。大多数案件都是由检察官、辩护律师和法官通过认罪协议进行协商的。而证据——例如指纹和弹壳——在这些协商中占据了重要地位。为了将罪犯绳之以法，律师和法官需要了解法医分析背后的统计学和科学。

但法学院不教科学。据名誉法学教授凯伊说，很少有律师了解科学是如何运作的，他指的不是具体方法的技术细节，而是对科学家如何进行研究和产生知识的更深层次理解，这些知识可以挑战、更新或推翻我们过去认为已知的一切。

凯伊说：“法律需要摆脱那种‘因为过去被接受的东西，所以它们会继续有效’的说法。”

这正是科学与法律之间最深刻的分歧所在：法律体系建立在先例之上。先前的判决限制了未来的裁决。但科学对过去的思想构成了健康的冲击，自启蒙时代以来一直如此。CSAFE成员和其他学者将继续反思和修订昨天的法医学。然而，将由法官、律师和其他守门人来决定科学进步是否能在法庭上得到认可。