氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究:sunxjk@hotmail.com 微信 hydrogen_thinker

博文

阿尔法折叠(AlphaFold)数据告罄 精选

已有 4050 次阅读 2025-3-31 06:29 |系统分类:海外观察

阿尔法折叠(AlphaFold)数据告罄

数千个被大型制药公司深藏的蛋白质三维结构,将被用于创建一款新的人工智能工具,而学术界无法使用该工具。

阿尔法折叠3(AlphaFold 3)对一种感冒病毒刺突蛋白(蓝色)与抗体(青绿色)和单糖(黄色)相互作用时的结构预测,与真实结构(灰色)重叠显示。

 图片3.png

一个普通感冒刺突蛋白(蓝色)与抗体(绿色)相互作用的阿尔法折叠3模型。 图片来源:谷歌DeepMind

 

阿尔法折叠,这一曾获诺贝尔奖的革命性蛋白质结构预测工具,如今面临一个问题:数据即将耗尽。

人工智能(AI)模型的最新版本阿尔法折叠3,一直被吹捧为药物研发领域的变革性工具,因为它可以模拟蛋白质与包括药物在内的其他分子之间的相互作用。

但科学家们表示,支撑阿尔法折叠的数据中——数十万公开可用的蛋白质结构,缺乏蛋白质与药物等分子相互作用的实例,这限制了该工具在制药公司最感兴趣的应用场景中的发挥。

今天,一个由领先制药公司组成的联盟宣布了一项计划,他们将利用目前深藏于公司内部的数千个蛋白质结构,打造一个受阿尔法折叠3启发的人工智能模型。除了蛋白质数据库(PDB)中可免费获取的20多万个蛋白质结构外,他们还将使用这些内部数据。

“蛋白质数据库中缺失的数据,恰恰是我们内部数据中所拥有的数据。” 位于伊利诺伊州芝加哥的制药公司艾伯维(AbbVie)计算药物发现部门负责人约翰·卡拉尼科拉斯(John Karanicolas)说道,他也是名为 “人工智能结构生物学联盟” 这一项目的成员之一。

该联盟的模型将基于OpenFold 3构建,OpenFold 3是阿尔法折叠3的完全开源复刻版本,由学术研究人员开发(仅使用公开数据),预计将于4月发布。但该联盟并无计划向成员公司(包括艾伯维、强生、赛诺菲和勃林格殷格翰)以外的机构提供其模型。

开发阿尔法折叠的伦敦公司谷歌DeepMind并未参与该项目,且不愿对此发表评论。其衍生公司同构实验室(Isomorphic Labs)正在将阿尔法折叠3用于与包括诺华和礼来在内的制药公司的合作中。

药物数据短缺

阿尔法折叠从蛋白质序列预测其三维结构的能力,依赖于对蛋白质数据库中通过X射线晶体学等实验方法测绘的大量蛋白质结构的获取。卡拉尼科拉斯表示,这些结构中许多都包含相互作用的分子,但它们往往涉及生物伴侣,如细胞能量来源三磷酸腺苷(ATP),而非药物化合物。

因此,纽约市哥伦比亚大学的计算生物学家穆罕默德·阿尔库拉希(Mohammed AlQuraishi)表示,阿尔法折叠3在预测蛋白质与潜在药物的相互作用方面表现尚可,但 “这仍然是一个悬而未决的大问题”,他正领导OpenFold的开发工作。

制药公司的蛋白质结构很少存入蛋白质数据库,而这些结构有可能会对此有所帮助。作为药物研发活动的一部分,公司通常会确定与许多不同候选药物结合的同一蛋白质的多种结构。

这些专有蛋白质结构数据的完整规模尚不清楚。但新泽西州皮斯卡塔韦罗格斯大学的结构生物学家斯蒂芬·K·伯利(Stephen K. Burley)表示,这些数据可能与蛋白质数据库中的数据相当,甚至超过后者,他所在的机构是维护该数据库的组织之一。仅艾伯维一家公司就为该联盟的人工智能模型贡献了9000多个结构。“这些数据宝库背后的数据量之多,简直不可思议。” 阿尔库拉希说。

制药公司在开发新模型时,不会相互分享实际的蛋白质结构,也不会与阿尔库拉希分享。相反,他们将使用柏林初创公司Apheris开发的一个平台,该平台将允许使用专有数据对OpenFold 3进行再训练,且这些结构永远不会离开公司的数字防火墙。卡拉尼科拉斯表示,不可能通过逆向工程该模型来识别用于训练它的秘密结构。

阿尔库拉希说,目前尚不清楚这些额外的数据是否会提升阿尔法折叠模拟蛋白质与药物相互作用的能力。“这将是关键问题——能带来多大的提升呢?” 他的团队将对该模型进行评估,比如将其预测结果与实验结果进行比较,并公开详细的分析报告。

“我确实认为,无论实验结果是好是坏,都极具价值。” 他说。阿尔库拉希表示,一些科学家和资助机构正试图创建类似于制药公司的结构数据库,为人工智能模型提供数据,而了解更多数据是否真的有用是很有意义的。

大幅改进

田纳西州纳什维尔范德比尔特大学的计算结构生物学家斯蒂芬妮·万科维茨(Stephanie Wankowicz)表示,仅靠制药公司的秘密数据,可能无法帮助阿尔法折叠提高其在预测蛋白质结构方面通常已经很高的准确性。但她补充说,公司数据宝库中所代表的化学多样性,很可能会 “大幅改进” 对药物相互作用的预测。

加利福尼亚大学旧金山分校的药物化学家布莱恩·肖谢特(Brian Shoichet)不确定制药公司的数据是否足以让阿尔法折叠取得实质性进展。“他们从这些数据中能挖掘出的新东西也就这么多了。” 他说。

但肖谢特补充道,即使是微小的改进也可能很有价值,比如能够更准确地预测一种药物是否会与特定蛋白质结合,这可以表明药物是否会起作用。他自己的团队开展 “虚拟对接” 研究,使用软件(传统上是基于物理原理的程序)来预测数十亿种化学物质中哪些能够与一种蛋白质结合。然后在实验室实验中对这些预测进行测试。“如果预测结果中有20% 是有效的,我们就很满意了。如果能提高到50%,那将是一个巨大的改变。” 肖谢特说。

结构数据的保密性

最初,只有该联盟的成员才能使用这个模型,卡拉尼科拉斯希望会有更多的制药公司加入。他说,在考虑向学术科学家开放使用权限之前,该联盟首先想看看其模型的表现如何。

万科维茨也希望制药公司首先能将更多的结构数据公开。伯利说,在蛋白质数据库的23.3万个结构中,只有6% 是由制药公司提交的。

肖谢特也认为制药公司有充分的理由分享更多的结构数据,但他并不抱太大希望。“30年来,我一直参与这类讨论,但这种情况从未发生过。我现在甚至都不再提这件事了。”

伯利则更为乐观,他认为公司会看到更大程度开放数据的好处,比如能获得更好的药物研发工具。“在阿尔法折叠2和阿尔法折叠3之后的时代,公司会更愿意大胆尝试。” 



https://blog.sciencenet.cn/blog-41174-1480012.html

上一篇:同时释放氢气和氧气的医用新材料2025
下一篇:氢气和氧气辅料治疗糖尿病足溃疡新概念
收藏 IP: 117.143.182.*| 热度|

6 许培扬 王涛 郑永军 张成岗 崔锦华 赵凤光

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

IP: 223.72.67.*   回复 | 赞 +1 [1]许培扬   2025-3-31 10:04
AlphaFold3的闭源可能延缓科学进步,但其技术潜力仍不可忽视。例如,其对病毒刺突蛋白与抗体结合结构的预测(如用户提到的感冒病毒案例)已展示了应用价值8。未来,开源社区的发展(如OpenFold3)或能部分弥补资源差距,但需政策支持以打破数据垄断,例如推动公共数据集建设和计算资源共享310。

总结
AlphaFold3的争议反映了AI时代科学研究中商业利益与开放科学的深层矛盾。解决这一问题需多方协作:企业需平衡商业化与学术贡献,期刊应强化代码公开政策,而学术界需加强开源工具和公共数据平台的建设。

1/1 | 总计:1 | 首页 | 上一页 | 下一页 | 末页 | 跳转

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-4-3 23:33

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部