直到去年,现代生物学的一大挑战仍然是根据氨基酸序列预测蛋白质的三维结构。随后,谷歌的 Deepmind 部门推出了 AlphaFold,这是一个基本上解决了蛋白质折叠问题的人工智能程序。此后,Deepmind 利用其机器计算了所有人类蛋白质(以及来自另外 20 种生物的蛋白质)的结构,并将结果公开在 AlphaFold 蛋白质结构数据库 上。
这无疑是个令人振奋的消息,尤其是在药物开发方面。蛋白质工作方式的一个关键因素是其三维结构,这决定了它们如何在体内与其他蛋白质相互作用,就像拼图碎片一样。药物的作用方式也类似,通过附着在蛋白质特定部分的形状上来发挥作用,就像钥匙匹配锁一样。
这就是为什么所有人类蛋白质的三维结构如此重要——因为这使得研究人员能够开始开发能够靶向它们的药物。事实上,人们希望整个过程都能由智能机器完成。
药物发现
现在,中国上海 Insilico Medicine 的一个团队宣布,他们首次以这种方式开发出了一种潜在的药物。“通过将 AlphaFold 预测的蛋白质结构与端到端的人工智能驱动药物发现平台相结合,我们能够快速识别新型靶点的一类创新分子,”Fen Ren 及其同事表示。“据我们所知,这项工作首次展示了 AlphaFold 在早期药物发现的候选化合物识别过程中的应用。”
该团队首先选择了一种疾病进行研究。他们选择了肝细胞癌,这是一种肝癌,目前缺乏有效的治疗方法。“由于全世界所有地区的预后都非常差,肝癌的发病率非常接近其死亡率,”该团队表示。
关于这种疾病有大量数据,从强调相关基因的文本到探索这些基因表达方式的所谓“组学”数据,再到涉及的各种信号通路、基因敲除和过表达实验等等。
理解这一切非常困难,但非常适合基于人工智能的方法。PandaOmics 应运而生,这是一个由人工智能驱动的发现引擎,它能够自动化整合和分析这些数据的过程,然后突出显示其发现的任何可能成为药物靶点的有前景的蛋白质。
Ren 及其同事表示,这个人工智能引擎生成了一份包含 20 种最有潜力的靶点蛋白质的列表。从这个列表中,团队选择了一种名为 CDK20 的蛋白质进行进一步研究,该蛋白质参与调节细胞的生长和分裂方式。各种证据表明,CDK20 在肝细胞癌相关的肿瘤和其他癌症中过度表达。
因此,一种能够抑制 CDK20 活性的分子值得进一步研究。为了找到这样的分子,Ren 及其同事转向了另一个人工智能驱动的引擎 Chemistry42,该引擎利用 AlphaFold 发现的 CDK20 结构来生成能够附着并使其失活的分子。
它是通过寻找蛋白质结构中可以容纳另一个更小分子的口袋,然后设计能够实现这一目标的分子来实现的。然后它会模拟这种对接过程是如何工作的。通过这种方式,Chemistry42 生成了 54 种潜在分子,Ren 及其同事选择了其中的 7 种进行合成。
有前景的分子
最后,团队制造并测试了这些分子,以了解它们在实验室实验中与 CDK20 的结合程度。其中一种名为 ISM042-2-001 的分子似乎特别有前景,它与 CDK20 的亲和力与许多天然抗体与其靶点的亲和力相似。
当然,这并不意味着 ISM042-2-001 就是肝细胞癌的潜在治疗方法,它仅仅是一个有前景的、可供未来研究的分子。在考虑将其用于人体临床试验之前,还需要进行大量工作来确定 ISM042-2-001 的特性。许多最初看起来有前景的分子在此过程中都会被淘汰。
然而,Ren 及其同事的方法极大地加速了最初寻找有前景分子的过程。在这种情况下,整个过程仅用了 30 天,而这种疾病已经存在了几十年。
这使得这项工作非常有趣且潜力巨大。Ren 及其同事表示,他们将继续寻找和测试其他可能抑制 CDK20 的分子。他们也在研究其他靶点。
所有这一切都得益于 AlphaFold 的突破,这显然引发了早期药物发现方式的根本性转变。预计将看到一些重大的进展。
参考:AlphaFold 加速人工智能驱动的药物发现:高效发现新型细胞周期蛋白依赖性激酶 20 (CDK20) 小分子抑制剂:arxiv.org/abs/2201.09647














