细胞是一个极其复杂的生物化学工厂。作为生命的基本单位,细胞从环境中汲取能量,并利用这些能量合成复杂的分子机器,构建自身的复制品,并进行移动。这是一个有40亿年历史的把戏,即使是今天,仍然让苦苦挣扎于理解其内在过程和原理的生物学家感到困惑。
为了改变这种状况,生命科学家们对细胞进行了不同程度的建模。这些模型可以模拟一些重要的生物分子过程,如蛋白质的合成,包括转录和翻译。最先进的模型甚至可以根据生物体的基因密码预测细菌细胞的一些宏观特征,即其表型。
但这些模型仅仅触及了捕捉细胞机器的全部规模和复杂性的表面。也许最大的挑战在于模拟从原子和分子到细胞和组织层面各种尺度的巨大范围内的生物过程和通路。这种活动高度非线性,以至于初始条件的微小变化可能无关紧要,或者在皮秒到几小时或几天的不同时间尺度上导致结果的巨大差异。
变革
当然,处理能力和算法的逐步改进正在使模型变得更好。但是,计算机科学家和生命科学家想要的是一种能够超越这些改进的变革。
斯坦福大学的夏洛特·邦妮(Charlotte Bunne)及其同事表示,现在可以看到这样的变革。他们认为,人工智能有潜力以前所未有的分辨率和巨大的尺度模拟细胞。
他们提议构建一个人工智能虚拟细胞,能够精确地模拟真实细胞的行为,精确到能够预测细胞对各种刺激的反应,识别潜在的药物靶点,甚至评估这些药物的虚拟版本。他们说,通过这种人工智能方法,“对细胞机制和相互作用的全面预测性理解已触手可及。”
这种新方法的成功的一个关键要素是训练数据的可用性。这是生物信息学家蓬勃发展的一个领域。“原始生物数据的规模是不可否认的,”邦妮等人说。他们提到了序列读取存档(Sequence Read Archive),这是一个公共的 DNA 测序数据存储库,目前存储了超过 14 PB 的信息,是训练 ChatGPT 所用数据的千倍。
当然,难点在于如何从这些和其他来源中明智地选择训练数据。这些数据库中的大部分数据可能冗余或对训练目的价值有限。它们也不太可能足够多样化,以捕捉细胞行为的全部范围。
这是因为这些数据库严重偏向于实验中偏爱的生物,例如大肠杆菌 (Escherichia coli)、小鼠和人类。这不可避免地会在任何人工智能模型中产生物种偏差。
邦妮等人明确表示,将需要来自各种来源的更多数据,包括 DNA、RNA 和蛋白质序列,以及转录组和蛋白质组活动的や空间位置,以及组织结构等等。
创新洞察
另一个重要因素将是人工智能模型本身的结构。邦妮等人提出了三个相互作用的层次,将模拟细胞的分子、细胞和多细胞层面。每个层次都可以通过虚拟仪器进行询问,这些仪器会产生用于人类洞察的输出,或作为另一个虚拟仪器的输入。通过这种方式,计算机科学家可以设计实验来评估细胞在所有尺度上的行为。本质上,这将是细胞科学的虚拟实验室。
目前,人工智能虚拟细胞只不过是少数颇具影响力的研究人员眼中的一丝灵光,他们已经开始充实自己的计划。这项工作的野心如此之大,以至于无法通过一两个研究小组的努力来完成。相反,未来几个月和几年需要学术界、政府和行业各研究小组之间进行重大合作。
这通常是一项难以协调的任务。但在这种情况下,风险足够高,足以激励所有人。“人工智能虚拟细胞有潜力彻底改变科学研究过程,从而在生物医学研究、个性化医疗、药物发现、细胞工程和可编程生物学领域取得未来突破,”邦妮等人说。我们将密切关注这个项目接下来的进展——以及谁会参与其中。
参考文献:如何用人工智能构建虚拟细胞:优先事项和机遇:arxiv.org/abs/2409.11654














