||
生成“更智能”的生物技术
生成式人工智能正在生物医学领域全速前进。
编译 李升伟
2022年年底以来,我们见证了突破性的人工智能(AI)工具的火爆推出,比如DALL-E 2和ChatGPT,都来自OpenAI实验室(OpenAI成立于2015年,是由一群科技领袖创办的美国人工智能研究实验室)。其中,DALL-E 2能够基于文本描述的输入生成图像,而ChatGPT是一种可以生成文本和回答问题的自然语言模型。对于大多数用户来说,这些工具看起来很有趣和令人兴奋,谁会不想按照你最喜欢的艺术家的风格来生成一个你最喜欢的卡通人物或宠物的形象,或者让ChatGPT告诉你一个新的笑话或给你写一首歌呢?而对于科学家和生物技术公司来说,AI技术在过去几年中一直在稳步上升,这些新的生成式AI工具具有越来越强大、越来越成熟的潜力。
生成式AI是指任何能够根据短提示生成图像、文本或媒体的技术。其中一些模型与其他机器学习模型相比,偏差较小,不需要手动输入训练数据,同时它们是高质量的,可以从多个大型数据源的输入中进行学习。最近,OpenAI实验室及其智能聊天机器人ChatGPT得到了大量的报道,与此同时,在过去几年里还有其他几家生物技术初创公司增加了对生成式AI的研究和发展,包括Jasper和Stability AI,它有自己的文本到图像生成工具称为Stable Diffusion,也在2022年得到了发布。这项技术正在被添加到无数的新应用程序中,从图像和音乐生成到新的机器学习算法的开发,包括在生物技术领域。
例如,传统的蛋白质工程方法包括对蛋白质序列进行迭代突变和选择,或从头理性设计,创造出具有期望特性的蛋白质,既有结构特异性也有序列特异性。生成式AI有潜力改变这一实验方案,使从零开始生成人工蛋白质序列更容易。玛达尼(Madani)及其同事开发了ProGen,就是这样一种语言模型,在对已知蛋白质家族的2.8亿个序列进行训练后,可以生成具有可预测功能的蛋白质序列。
众多生物技术公司也在取得类似的进步,特别是小分子药物发现领域将受益于这些生成式AI模型。总体来说,获得美国食品药品监管局(FDA)批准的候选药物只有少部分能最终被批准用于临床,但AI模型有可能找到更多的生物学相关化合物。生成生物医学公司(Generate Biomedicines)是一家成立于2020年的公司,它使用生成式AI创造蛋白质,可以用作新的治疗方法,更好地适应特定条件,也更容易生成。类似地,2015年创建的Standigm公司也是一家基于AI的药物发现公司,它已经使用了类似的生成式AI工具,通过查询大型生物医学数据库,在短短2个月的时间内创建了数百个新分子。类似的其他例子还有很多。
一个名为OpenBioML的“开放研究实验室”,旨在将AI与生物学交叉,从而服务于研究人员和学生。OpenBioML得到了其母公司Stability AI的支持,目标是通过为合作研究项目提供大规模的计算资源,使技术民主化。它的两个项目包括BioLM(将自然语言处理应用于计算生物学和化学)和DNA-Diffusion(可以从文本提示中生成DNA序列的研发AI)。
虽然在医学上也有机器学习的案例,可以更准确地诊断疾病,但这些算法并不能避免偏差,可能导致对某些患者更糟糕的治疗。生成式AI需要大型而且准确的数据集来生成高质量的预测,当这些数据不完整或包含错误时,就会产生误差。这些系统还可能容易发生过度拟合(overfitting)。这些技术非常昂贵,它们需要专门的硬件和软件来实现。同时,它们需要大量的时间来培训和使用,而且它们可以留下巨大的碳足迹,有趣的是,在这方面,初创公司Evozyne的生成式AI模型也希望直接应对气候变化。
总体而言,在2022年间,生成式AI公司吸引的投资超过了13.7亿美元,随着该软件在生物医学领域获得更多的关注,这一数字无疑会增加。据预测,到2040年,生成式AI可能为医疗保健行业带来1万亿美元的价值。我们仍然需要改进训练数据,以避免偏差,并且我们需要使它们对用户和地球更友好。总之,这项技术有可能影响癌症检测、预测疾病变异和减缓气候变化。当然,还有其他的应用程序,我们甚至还没有仔细考虑过。也许我们应该问问ChatGPT,看看它的想法。
资料来源 Nature Biotechnology
原文链接:https://www.nature.com/articles/s41587-023-01695-x
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 20:43
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社