王飞跃的个人博客分享 http://blog.sciencenet.cn/u/王飞跃

博文

人工智能驱动的科学研究新范式: 从 AI4S 到智能科学

已有 791 次阅读 2023-12-5 09:00 |个人分类:论文交流|系统分类:论文交流

参考文献:

王飞跃, 缪青海. 人工智能驱动的科学研究新范式:AI4S到智能科学. 中国科学院院刊, 2023, 38(4): 536-540, doi: 10.16418/j.issn. 1000-3045.20230406002.

Wang F Y, Miao Q H. Novel paradigm of AI-driven scientific research: From AI4S to Intelligent Science. Bulletin of Chinese Academy of Sciences, 2023, 38(4): 536-540, doi: 10.16418/j.issn.1000-3045.20230406002. (in Chinese)

 

人工智能驱动的科学研究新范式: AI4S 到智能科学

 

王飞跃,缪青海

 

摘要:近期,以ChatGPT为代表的大模型技术正开启人类社会智能化的新纪元。研究人工智能成功案例背后的技术原理,探索人工智能驱动的科学研究(AI for ScienceAI4S)新范式,对促进我国科技进步、增强国家竞争力具有十分重要的意义。文章首先以数学、物理学、生物学、材料科学领域为例,简述AI4S的研究进展。其次,面向近年来最为成功的人工智能范例,分析AlphaFoldChatGPT的基本原理和关键技术。最后,在以上分析的基础上,从算法、模型、数据、知识、人的因素等角度,总结大模型时代人工智能技术发展新趋势,探讨AI4S研究新范式。

关键词:智能科学; 人工智能; 人工智能驱动的科学研究; ChatGPT; 人工智能生成内容(AIGC; 第五范式; 工业5.0; 平行系统

 

在全球迎来前所未有之大变局的时代背景之下,ChatGPT2022年底一经推出便掀起新一轮人工智能(AI)浪潮。以ChatGPT为代表的大模型技术影响空前深远,正推动AI技术从特定应用和游戏等领域进入人们日常生活,成为切切实实的生产力工具,人类社会的智能化革命已经拉开帷幕。

 

图灵奖得主Jim Gary认为科学研究经历了经验范式、理论范式、计算范式、数据驱动范式等4种范式。当前,许多科学家认为科学研究正在迎来新的范式,即第五范式。第五范式以虚实交互、平行驱动的AI技术为核心,以智联网和区块链构建基础,考虑人的价值和知识的融入。在产业方面,第五范式也称为工业5.0。而AI驱动的科学研究(AI for ScienceAI4S),更是新范式在基础科研的深度体现。

 

近期,科学技术部会同国家自然科学基金委员会启动人工智能驱动的科学研究AI for Science)专项部署。本文通过概述AI4S发展现状、分析典型AI应用范例,进一步探讨AI4S范式创新之路。

 

1        AI4S发展现状简述

 

近几年来,在深度学习等AI技术的推动下,AI4S在数学、物理学、生物医学、材料科学等领域取得了许多令人瞩目的成绩。

 

1)数学领域。2017年以来,科学家尝试使用机器学习、ResNetseq2seq模型等技术求解偏微分方程,获得了更快更准的结果。2021年,DeepMind开发了启发数学家直觉灵感的机器学习框架,帮助数学家和AI研究人员在Knots理论方面发现新定理,证明了已提出40年之久的Kazhdan-Lusztig多项式。202210月,同样是DeepMindNature发文,推出在AlphaZero(前身是著名的AlphaGo)基础上开发的AlphaTensor,并通过强化学习找到了矩阵相乘的最快算法。DeepMind的系列工作,为AI驱动的数学研究(AI for Math)提供了可供参考的新范式。

 

2)物理领域。AI方法除了用于实验数据处理和分析之外,还帮助科学家设计实验、优化参数。20世纪90年代,高能与核物理学界就使用神经网络和符号AI辅助研究。2014年,人工神经网络赢得了ATLAS实验中识别希格斯玻色子的挑战。2015年,欧洲核子研究组织CERN成立了机器学习工作组来处理大型强子对撞机(LHC)产生的海量数据。20222月,DeepMindNature上发表了其工作:通过深度强化学习对托卡马克等离子体进行磁控。20228月,物理学家使用人工神经网络找到了质子中存在隐性内含粲夸克(intrinsic charm quarks)的证据,这一发现可能会改写量子色动力学的教科书。

 

3)生物医学领域。AlphaFoldAI4S领域最成功的代表。从2016年开始,DeepMind构建AI系统来挑战蛋白质三维结构预测任务。AlphaFold将预测误差缩小到原子尺度,而计算时间从数年缩减到数分钟,显著提升了效率。DeepMind宣布其2亿个蛋白质结构预测向世界各地的科学家提供开放访问,这对加速药物研究具有重大意义。除AlphaFold外,华盛顿大学开发的RoseTTAFold、中国科学技术大学研发的SCUBA等模型,也在该领域不断突破。

 

4)材料科学领域。2011年,美国提出材料基因组计划MGI),旨在解码材料的不同组成成分和性能的对应关系,借助高通量计算、大数据、AI等技术,有效缩短了材料研发周期、降低了研发成本。2016Nature发布了美国哈弗福德学院和普渡大学的研究成果,科研人员利用机器学习算法,用失败的实验数据预测了新材料合成,这启示机器学习等AI技术成为材料科学的重要研究方式。

 

正如我们所见,AI在科学研究中的角色随着深度学习的繁荣而发生了变化。早期,AI方法只是作为辅助工具,帮助分析实验数据。如今,AI方法已成为更复杂任务(如定理证明、结构设计和知识发现)实现过程中的关键技术。AI还在不断拓展学科领域,人工智能驱动的科学研究专项部署重点面向数学、物理学、化学、天文学等基础学科,必将为这些学科快速发展带来新契机。

 

2        热点背后的AI范式分析

 

在算法、数据、算力三大引擎的驱动下,深度学习时代下的AI研究进展迅速,AlphaGoAlphaFoldChatGPT等成为AI发展历史上一座座里程碑。分析这些案例特点,总结成功经验,对于AI后续的创新和应用具有十分重要的启发意义。

 

2.1   AlphaFold研究范式

 

DeepMind推出的AlphaFold系列是AI4S的最成功的代表之一,尤其是第二代AlphaFold22020年全球蛋白质结构预测比赛(CASP14)中拔得头筹,蛋白质三维结构预测准确性接近实验结果。AlphaFold2的目标是根据输入的一维氨基酸序列预测蛋白质的三维结构,其成功可以归因于领域知识与深度学习前沿技术的融合。

 

从深度学习的角度来看,AphaFold 23个亮点。 AlphaFold 2淘汰了第一代所采用的卷积神经网络(CNN)特征提取结构,替换为基于注意力机制的性能更强的Evoformer AlphaFold 2不是简单的单向处理流程,而是采用了循环迭代优化。 AlphaFold 2同时使用带标签和未带标签的数据进行网络训练,并融入含噪自蒸馏处理。整体来看,AlphaFold 2是一个包含多种算法和学习策略的系统化方法。

 

从知识融合的角度来看,相对于神经网络模型层面的创新,多元知识的表示和融合在AphaFold 2中扮演着更为关键的角色。蛋白质结构预测是一个专业方向,科学家通过数十年的研究积累了宝贵的知识和数据。ApphaFold 2使用了2种类型的数据集:一种是序列数据集,如UniRef 90BFDMGnify等。基于同一位置的氨基酸在物种间是不变的,2个不同位置的氨基酸同步变化这一领域知识,AlphaFold 2从遗传序列数据库中搜索并构建多序列比对(MSAs),而MSA的质量决定了AlphaFold 2的预测准确性;另一种是结构数据集,如PDBPDB70等。ApphaFold 2从这些结构数据集中搜索并构建残基之间关系的配对(pair)表示。通过这种方式,一维氨基酸序列通过领域知识和数据集进行扩充,形成2个二维关系表示。 Evoformer接收MSAPair表示,在行、列2个维度进行注意力计算,完成2种表示的交叉融合。需要注意的是,在配对(pair)表示的注意力计算中引入了几何知识,即氨基酸之间的距离要满足三角不等式约束。在结构预测模块中,利用三维空间结构平移和旋转等变的知识,ApphaFold 2引入了不动点注意力(IPA)计算。根据IPA输出的残基相对位移和旋转,AlphaFold 2进一步预测原子的空间位置。引入OpenMM中的Amber力场优化工具,以确保输出的三维结构满足立体化学约束。

 

从对AphaFold 2研究范式的分析可以看出,其特点是深度学习技术与各类知识的有机融合,涵盖了知识、数据、算法、算力这4种第三代AI的核心要素。因此,围绕深度学习,研究知识获取、知识表示、知识集成、知识利用,即知识自动化方法,探索知识- 学习协同组织形式,开发协助AI4S研究的系统化基础框架,应当得到AI界和科学界的共同重视和大力投入。

 

2.2   ChatGPT研发范式

 

202211月起,ChatGPT掀起新一轮AI全球浪潮。ChatGPT因其能够进行多轮对话、承认错误、反驳错误前提和拒绝回答不恰当的问题而享有盛誉。ChatGPT在回答问题的准确性和逻辑完整性方面超越了现有的聊天机器人,在遵守道德、伦理、法律方面也有很好的表现。ChatGPTOpenAI近年来研发的一系列GPT模型在对话场景的实例,有3个技术特征。

 

1ChatGPT基于大规模预训练语言模型,即著名的GPT-3系列(GPT-3.5)。在过去的几年里,大规模的预训练模型发展迅速。大规模预训练模型通过学习大量的公开数据,将学习到的知识存储在大规模参数之中,不断刷新多个领域中多数任务的最高性能纪录,是通向通用人工智能的可行路径。

 

2ChatGPT使用人类反馈强化学习(RLHF)在GPT-3.5上进行微调。微调是包含2个数据集的过程,共有3步:第一步,由2AI训练师基于给定采样提示(prompt)通过对话生成人类演示数据集,用于GPT-3.5微调训练,结果称为有监督微调模型(SFT)。第二步,通过AI培训师和聊天机器人之间的对话收集比较数据集,对SFT模型输出的多个结果,由AI培训师给出从最好到最差的打分排序。之后,用这个排序数据集训练强化学习的奖励模型,此过程也是有监督的方式。第三步,使用近端策略优化院刊539人工智能驱动的科学研究新范式:从AI4S到智能科学(PPO)算法,由奖励模型生成reward,通过强化学习进一步微调SFT模型。第二步和第三步重复多次,最后得到PPO模型,即ChatGPT

 

3GPT模型按照开发-部署的理念迭代完善。将初步开发完成的模型部署上线,为用户提供测试服务,由此收集用户与模型的交互数据作为进一步优化模型的基础。开发(学习)和部署(应用)形成闭环,这种迭代优化策略在降低语言模型误用风险方面起着至关重要的作用。

 

ChatGPT范式再次展示了预训练大型模型的强大功能,凸显了人类在引导大模型遵循人类规则方面的重要作用。由此可见,针对大模型的微调、上下文学习、指示学习、提示学习是AI的重要研究方向。

 

3        探索AI4S研究新范式

 

AI本身的研究范式也在不断转变。自AI诞生之初,人们基于几个基本假设(如独立同分布、Markov属性等),使用初级方法(如Perceptron等)解决简单的问题(如简单的二元分类、回归等),并由此产生了3种基本范式——监督学习、无监督学习和强化学习。但面对复杂问题时,这些基本范式存在局限性。因此,随着新的算法(BP算法、分层训练等)和模型(CNN、长短期记忆人工神经网络LSTM等)的出现,AI逐渐发展出主动学习、迁移学习、终身学习等新范式。近年来,AlphaGoChatGPT等前沿进展以其革命性的成就引领了新一轮的范式转变。从范式转变的角度看待人工智能的发展,对促进探索AI4S创新应用具有重要价值,为此,以下从算法、模型、数据、知识、人的角色等方面进行分析。

 

3.1   算法

 

算法是人工智能的基石。典型AI新范式中使用的算法不仅限于机器学习,还涉及整个人工智能领域,包括搜索和推理。例如,AlphaGo的主干是蒙特卡洛树搜索(MCTS)算法。近年来出现的新算法,例如受热力学启发的扩散模型(Diffusion Model),在AI生成内容(AIGC)领域显示出巨大潜力。由此可以看出,Science for AIAI算法创新也具有重要意义,应得到同AI4S一样的重视。

 

3.2   模型

 

机器学习模型的创新是推动人工智能发展的核心要素。尤其是神经网络新架构:从M-P模型到Perceptron,从LeNetResNet,从LSTMTransformerAlphaGoCNN为主干网络,用于提取棋局特征、辅助走棋决策和棋局评估。AlphaFold 2TransformerEvoFormer)替换CNN模型,这是其性能相比第一代有巨大提升的主要原因之一。ChatGPT建立在基础模型(GPT-3)之上,充分利用了大规模预训练语言模型的力量。利用大模型的规模效应,研究利用prompt等方法引导大模型释放内在能力,是AI4S重要方向之一。

 

3.3   数据

 

数据是深度学习的三大核心驱动力之一,但存在标签数量少、标注成本高、分布不平衡、隐私保护等问题。主动学习、溯因学习、对比学习、平行学习和迁移学习等学习范式,能够在一定程度上克服数据标注的不足;而多任务学习、迁移学习、元学习和终身学习,在一定程度上能克服不同任务之间存在数据不平衡问题;联邦学习可用来解决数据安全和隐私问题。

 

新范式在数据的使用方面有更多亮点,Syn2RealSim2Real等数据生成方法得到越来越多的重视。例如,AlphaGo首先在人类棋局上训练策略,通过自我对弈产生更多的数据来训练更强大的策略网络,进而产生更多的数据来训练强大的价值网络。AlphaFold充分利用遗传数据和结构数据,还通过自蒸馏的方式使用未标注数据来弥补标注数据的不足。ChatGPT使用人类的演示数据来微调GPT-3.5,并通过prompt在聊天机器人和AI训练师之间生成更多的数据,进一步训练奖励模型将数据生成过程自动化。这些范式具有一个共同特征,即它们在缺乏标记数据时尝试生成数据以提高性能。

 

3.4   知识

 

AI基本范式很少显式引入知识,但在模型设计(如CNN)时引入的偏差(bias)也可以看作是先验知识。中级范式通常有3种引入知识的方式:直接(如主动学习)或间接(如课程学习)通过学习策略的设计来提高学习性能;使用从先前任务或其他任务(数据)中学到的知识来帮助新的学习任务。例如,多任务学习、迁移学习、元学习、平行学习等;整合上述2种方法,设计并维护一个专门的知识库来辅助学习过程。例如,终身学习和溯因学习等。

 

目前,大多数机器学习范式都采用知识的嵌入表示,以便将知识融合到学习过程中;但其中有2个例外,即终身学习和归纳学习,它们具有独立的知识库。我们还发现反馈对于学习中的知识获取、整合和自动化至关重要。高级范式高度依赖知识,例如,AlphaGo首先利用人类棋手的经验(可看作一种知识)训练策略网络,然后利用围棋规则(也是一种知识)通过强化学习改进策略,进一步通过自我对弈生成大量棋局。AlphaFold整合了生物学家的发现,以及来自遗传学、数学和化学领域的知识,这种高级范式是知识密集型的代表,为AI4S的进一步研究提供重要参考。ChatGPT的基础是大规模预训练语言模型(GPT3),可以看作是从海量数据中提炼出来的隐性知识库,而提示工程(prompt engineering)是引导大模型生成内容并对齐到人类会话风格、伦理和规范的过程。

 

运用知识的能力很大程度上决定了学习能力。然而,将知识整合到机器学习的过程中具有很大挑战,知识的获取、表示、集成、利用等环节通常需要人类的参与。人工智能驱动的科学研究专项部署强调围绕药物研发、基因研究、生物育种、新材料研发等需求,而知识融入这些专业性强的AI4S领域中尤为突出。为此,将大模型打造为知识工厂,研究服务于科学家的知识自动化方法,将是推动高效AI4S的重要保障。

 

3.5   人的因素

 

在深度学习之前,依赖于人类的特征工程在AI研究中起着决定性的作用。特征工程既费时又低效,而深度学习解决了这个问题。深度神经网络能够自动、准确、高效地提取特征,由此,端到端学习模型越来越受欢迎。然而,在某些应用中,人扮演着重要的角色,如提出要求、设定目标、提供知识、实施控制、执行评估等。因此,端到端学习不是最终目标,不能简单地将人类从机器学习过程中移除。人类在环(human-in-loop)模式的价值在ChatGPT的成功中显而易见,其中来自人类反馈的强化学习(RLHF)发挥了关键作用。

 

除以上因素之外,开展AI4S研究的组织方式也是不可回避的重要问题。当前,国际上多种针对产品开发的DAO(分布式开放自主组织)和针对基础研究的DeSci(分布式开放科学运动)正蓬勃兴起,特色就是利用智能科学与技术(IST),基于区块链和智能合约的数字组织和数字治理。ChatGPT的诞生本质上也是得益于这种模式,DeSciDAO也值得我们关注。




https://blog.sciencenet.cn/blog-2374-1411630.html

上一篇:[转载]【CAC2023专题论坛】联邦生态·平行未来论坛顺利举办
下一篇:[转载]【喜报】《智能科学与技术学报》成功入选《科技期刊世界影响力指数(WJCI)报告》(2023版)
收藏 IP: 120.231.184.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-5 09:00

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部