Eric Dishman,曾是英特尔的高管,现任美国国立卫生研究院(National Institutes of Health)成员,在他19岁上大学二年级时被诊断出患有罕见的肾癌。在接下来的23年里,他接受了62种不同的化疗、免疫疗法和放疗。有些方法减缓了肿瘤的生长,但从未持久。癌症从他的左肾转移到了右肾。
就在Dishman似乎已经山穷水尽的时候,2012年,他偶然遇到了一位为一家已注销的基因检测公司工作的科学家,这给了他一个无法拒绝的机会。他对自己的癌组织进行了测序,这个过程会将他的癌症突变的DNA与健康患者的基因组进行比较。这将使医生能够寻找支持癌症生长的基因突变和其他异常,并利用这些信息制定治疗策略。例如,某些基因的变化可能表明他的癌症更容易对特定药物产生反应,而其他突变可能预示着特定疗法效果甚微。一旦医生对他的肿瘤进行了测序,他所要做的就是等待。然后等待。
Dishman说,当他接到医生的电话时,他“简直是在死亡的边缘”。肿瘤学家、计算机科学家和数据分析师团队花了七个月的时间才分析出Dishman的基因数据,并确定了一种——针对胰腺癌的——药物,这种药物能够靶向他癌症的独特特征。这种实验性药物能够靶向被认为是导致Dishman患病的异常基因。在开始治疗的三个月内,他成功摆脱了癌症,并获得了最终挽救他生命的肾脏移植资格。
受到这次治疗的启发,Dishman现在正致力于让这种个体化癌症治疗能够惠及更多的患者。而且,讽刺的是,这种个体化方法可能依赖于集体努力。
数据驱动的治疗
对于一些癌症患者来说,这种方法已经成为常规,例如乳腺癌肿瘤中HER2蛋白水平较高的女性和男性,或者EGFR基因突变的肺癌肿瘤患者。这些人通常可以从靶向特定致癌异常而非攻击整个身体的药物中受益。
大多数患者的治疗轨迹并非如此直接。理论上,通过基因组测序获得的对癌症遗传基础的深入了解,将使即使是最难治疗的诊断也能使患者受益于个体化治疗方法。目前,只有大约2%的癌症患者接受了基因组测序。这些幸运的少数人大多在顶尖的癌症治疗机构作为临床试验的一部分接受治疗。然而,随着这项新技术变得越来越便宜和快速,医生们也越来越多地利用它。
俄勒冈健康与科学大学(OHSU)Knight癌症研究所所长Brian Druker表示,根据测序数据(如Dishman的案例)的见解来制定治疗策略,需要“我们分享知识的方式发生巨大的转变”。

俄勒冈健康与科学大学Knight癌症研究所所长Brian Druker。(来源:俄勒冈健康与科学大学)
俄勒冈健康与科学大学
首先,需要大量的数据。只有这样才能找出导致癌症并促进其生长的突变。Druker说:“一件发生率只有五千分之一的事情看起来像个巧合。你真的需要一个包含五十万或一百万人的数据集才能开始看到模式。”
其次,需要巨大的计算能力。测序一个基因组会产生一个或多个TB的数据;Dishman的肾脏肿瘤产生了5TB的数据。
人多力量大
Druker和越来越多的科学家相信,汇总和解读这些海量数据需要与计算机程序员为革新软件开发而拥抱的开源理念相同的理念。这种方法将计算机程序的源代码公开,任何对代码的改进或修改都会被公开分享。
这同样适用于癌症。“开源意味着,科学家和临床医生不是分享代码,而是分享数据,并相互借鉴知识,”非营利性生物医学研究组织Sage Bionetworks的John Wilbanks表示,该组织位于西雅图,支持开源科学项目。虽然很少有人会质疑可访问性的好处——毕竟,科学家依赖于他人的过往研究——Wilbanks说,存在一种“普遍的数据囤积文化”。
许多科学家仍然对可能商业化的、有助事业发展的发现或知识产权持保护态度。另一些人则引用了患者隐私的担忧,特别是鉴于近期医疗保健组织发生的一系列数据泄露事件。即使是与姓名无关的数据,有时仍可用于识别所谓的匿名患者。
即使是那些倾向于分享的人,也存在一些实际挑战。将数据从一个机构转移到另一个机构可能会很昂贵,而且运输硬盘或下载数据可能需要几周时间。很少有癌症中心有资源投资于足够强大的计算机或足够健全的网络来支持海量数据集。Dishman说,结果是“计算瓶颈阻碍了进展”。
这对今年仅在美国就有约170万人被诊断出患有癌症,特别是患有罕见癌症的人来说,是难以接受的。但他们可能很快就会有新的选择。
快速癌症查询
英特尔和OHSU通过一个名为“协作癌症云”(Collaborative Cancer Cloud,CCC)的新型开源平台合作。该倡议使癌症中心能够访问和分析大量的匿名患者信息——从基因序列和影像数据到个人健康记录中的发现。
与其他开源倡议不同的是,其他倡议要求中心从一个中心位置传输或检索数据,CCC允许研究人员将他们的数据保留在本地。用户通过云访问所有这些数据的虚拟注册表——也就是说,一个托管在互联网上的远程服务器网络,就像存储您的电子邮件和自拍照的那个一样。
Dishman说:“只需一个简单的查询,您就可以远程探索已同意共享信息的机构所拥有的数据集。”每一个查询和答案在发送前都会被包裹在一个加密的外壳中,因此它是“完全安全和匿名的”。
此外,CCC为用户提供了基于云的访问一系列常用的基因组分析工具,这意味着中心不必花钱购买昂贵的内部硬件和分析堆栈。
Dishman说:“我们不是让人去移动数据,而是把计算能力带进来。”
日益壮大的运动
CCC并非唯一的云数据共享平台。美国国家癌症研究所正在开发一个平台,用于存储来自癌症基因组图谱(Cancer Genome Atlas)的数据——这是一个包含11000多名癌症患者基因组数据的庞大目录。还有一些机构拥有自己的存储癌症数据的云平台。
Dishman说:“问题是,这些云平台没有与其他云平台连接。我们希望将它们全部连接起来,因为我们确实需要研究数百万患者的数据,才能找到癌症的根本原因和最佳治疗方法。”

杀伤性T细胞(绿色)包围着癌细胞(蓝色),它们将通过储存在囊泡(红色)中的化学物质杀死癌细胞。(来源:Alex Ritter, Jennifer Lippincott Schwartz and Gillian Griffiths/National Institutes of Health)
Alex Ritter, Jennifer Lippincott Schwartz and Gillian Griffiths/National Institutes of Health
到目前为止,除了OHSU,波士顿的Dana-Farber癌症研究所和多伦多的安大略癌症研究所都已加入CCC,Dishman表示“还有几十个”机构表示有兴趣。
Dishman说:“大多数癌症中心已经具备了必要的计算能力。如果没有,只需下载CCC工具即可。”虽然他预计许多人会使用英特尔服务器运行CCC,但这并非强制要求。“您不必购买我们的产品就可以成为CCC的一部分,”Dishman说。“因为它是开源的,它同样可以在其他计算机架构上运行。”
Druker说,医生可以利用CCC来比较相似患者的治疗和预后,以便为他们正在照料的患者做出最明智的决定。
Druker说:“想法是,您可以向世界各地的站点发送一个虚拟查询,这些站点加起来可以从一百万其他患者的数据中获得见解,然后问:‘有没有在基因水平上与我面前的病人相似的病人?’‘他们接受了什么治疗?’”理论上,系统会自动返回有关相似患者的去识别化信息。
今天,当Druker想获得他自己机构以外的患者数据时,他必须手动通过电话或电子邮件来完成。这是一个耗时的工作,可能需要几周或几个月。尽管CCC刚刚推出,但随着越来越多的癌症中心加入并共享数据,其目标是在2020年前将此过程缩短到一天之内。
Druker说:“你早上进行基因测序。然后你的数据与数百万其他患者的数据进行比较。到一天结束时,你的医生就可以说:‘是的,我们已经找到了适合你的治疗方法,并且有数据支持这个选择。’”
“你不能告诉病人要耐心,他们现在就需要治疗,”他补充道。
[本文最初以“用数据对抗癌症”为题刊载于印刷版。]















