||
王飞跃 缪青海|平行科学:大模型时代AI4S的前沿技术与框架体系
作者简介
王飞跃,中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任、中国科学院大学人工智能学院教授。研究方向为智能系统、社会计算和复杂系统的建模、分析和控制与管理等。主要著作有《人工智能驱动的科学研究新范式:从AI4S到智能科学》(论文)、《平行哲学:智能产业与智慧经济的本源及其目标》(论文)、《社会计算的基本方法与应用》(合著)、Flexible Manipulators: Modeling, Analysis and Optimum Design(合著)等。
缪青海,北京怀柔平行传感智能研究院研究员。
摘要
智能大模型技术作为智能产业与新质生产力的典型代表,正掀起人类社会变革的新浪潮,并加速推动科学研究范式的转变,在人工智能驱动的科学研究(AI for Science, AI4S)中起着越来越重要的作用,推动以“三个世界、三种技术、三类科学家、三种模式”为特点的平行科学新范式的形成。从虚实互动之平行智能的角度看,大模型技术在数学、生物学、健康与医学、化学、材料科学和天文学等领域都取得了一定的成绩。未来应基于平行科学的“三个世界”,利用“三类知识”,整合“三类科学家”,构建服务于AI4S研究的智能生态系统,特别是联邦生态系统的基本框架。
引言
近年来,由于智能科学技术的快速发展,特别是大语言模型(LLMs)的突破,科学研究的格局发生了深刻的变革。当前,人工智能驱动的科学研究(AI for Science, AI4S)正彻底改变传统的科学研究,基于AlphaGo、ChatGPT、Sora等智能应用,通过分布式自主科学(DeSci)进行组织的科学研究新范式正在形成。AI4S代表了自然智慧、技术智能和社会智慧的快速突破和融合,我们必须尽最大努力确保其过程和结果能造福人类,推动智能产业和新质生产力的健康可持续发展。
笔者从社会物理信息系统(Cyber-Physical-Social Systems, CPSS)中的平行智能(Parallel Intelligence, PI)的角度,尝试为AI4S开辟一条新路径,旨在使AI4S具备“6S”特性:物理世界安全(Safe),网络空间安全(Secure),生态发展的可持续性(Sustainable),对隐私、个人权利和资源利用的敏感性(Sensitive),为大众服务(Service)的智慧(Smartness)。笔者希望通过在赛博空间(Cyberspace)中创建一个新的工作空间,来摆脱人们在物理世界中的烦琐劳动,以促进知识的创造、传播、治理,实现知识自动化生产。为此,我们需要一个比大语言模型或基础模型(Foundation Models)更大的“世界模型”(World Model)。受到卡尔·波普尔“三个世界”(Three Worlds)理论的启示,这个“世界模型”应当包括:世界1,主要由工业技术(Industry Technology)发展起来的物理世界;世界2,主要由信息技术(Information Technology)发展起来的精神世界;世界3,主要通过智能技术(Intelligent Technology)发展起来的人工世界。简而言之,平行智能基于CPSS中的“三个世界、三类技术”,将人类(Human)、人工系统(Artificial Systems)、自然世界(Natural Worlds)的智能有组织地(Organized)整合为一类系统智能(Systems Intelligence)——即HANOI智能,为平行科学(Parallel Science)打下基础。
平行科学是基于“三个世界”,利用“三类知识”,由“三类科学家”进行AI4S研究的新框架。“三类知识”是指主要针对世界1的描述性知识,主要针对世界2的预测性知识,以及主要针对世界3的引导性知识。“三类科学家”即超过80%的数字人科学家(Digital Scientists),大模型为数字人科学家提供了强大的技术支撑;不足15%的机器人科学家(Robotic Scientists);以及少于5%的生物人科学家(Biological Scientists),即人类科学家。三类科学家通过自然哲学、社会研究和智能科学进行自主进化和融合,成为一体化的平行科学家(Parallel Scientists)团体,以有人或无人方式进行知识发现、知识创造,实现知识自动化。
不久的将来,平行科学家将如此开展“新一天”科研工作:首先是“上午”的新“AM”,即自主模式(Autonomous Mode),该模式由数字人科学家和机器人科学家在人类科学家的监督下完成研究任务,时间超过一天的80%。有些任务无法在AM模式下完成,由此进入“下午”的新“PM”,即平行模式(Parallel Mode),由机器人科学家和数字人科学家在人类科学家的远程支持下完成工作,时间少于一天的15%。如果AM和PM模式都不行,将进入“夜晚”的新“EM”,即专家或紧急模式(Expert or Emergency Mode),人类科学家必须在现场,在数字人和机器人科学家的帮助下完成任务,时间少于一天的5%。基于以上所述的愿景,笔者首先介绍平行智能的核心思想和基本框架,以平行智能的视角概述数学、生物、化学等领域中的AI4S新进展,着重大模型技术的应用,在此基础上总结分析AI4S领域存在的问题和挑战,并基于平行智能提出HANOI-AI4S,为AI4S提供一个分析、评估、引导的统一框架,致力于推动建立智能联邦生态系统发展。
平行智能视角下的AI大模型与新质生产力变革
平行智能:三个世界,三种技术。尽管平行智能的理念可以追溯到20世纪40年代的循环因果(Circular Causality)研究,但最近的研究起源于社会物理信息系统CPSS。CPSS旨在创建更高效、自适应和以用户为中心的系统,以应对日益复杂的互联世界所带来的挑战。简而言之,CPSS是结合计算、网络和物理过程与人类互动的集成系统,其特点是能够在物理世界中感知、计算、通信和执行,通常涉及大量社会元素,如人类行为、偏好和互动等。
图1展示了CPSS的基本框架。CPSS的哲学基础是卡尔·波普尔的“三个世界”理论,该理论认为宇宙由三个统一而连贯的世界组成:物理世界(世界1)、精神世界(世界2)和人工世界(世界3)。世界1包括客观物质和现象;世界2是知识的主观世界,包含人类的意识和经验;世界3是知识的客观世界,涉及由各种载体记录和存储的文化、文明、科学、技术或理论系统的产物。
图1 CPSS框架
三个世界相互作用和影响,映射到物理空间(Physical Space)和赛博空间(Cyberspace),从而形成如图1所示的“五环”。该框架可以有效整合三维空间中的各种资源,促进复杂系统中的“涌现”(Emergence)和“收敛”(Convergence)。利用虚拟现实等技术,CPSS整合了存在于物理世界、精神世界和人工世界中的各种物理、计算和人类智力资源,实现了一种平行、透明、智能和无处不在的管理和服务模式。
为弥合物理世界和人工世界之间的建模差距,使CPSS具有可计算性、可测试性和可验证性,笔者于2004年提出了平行系统理论。实际上,早在1994年,笔者就提出了影子系统(Shadow Systems),将模型视为数据生成器和可视化工具。随后,在“三个世界”理论的进一步影响下,影子系统进一步发展完善,形成了平行系统。平行系统理论的核心是ACP方法,包括三个组成部分,即人工系统(A)、计算实验(C)和平行执行(P)。其中,人工系统是基础,计算实验是核心,平行执行是目标。
如图2所示,人工系统和实际系统之间的关系可以是一对一、一对多、多对一或多对多,这取决于问题的复杂性和解决方案的准确性。在解决问题的过程中,人工系统和实际系统之间虚实交互平行执行,形成一种被称为平行智能的智能形式。
图2 平行智能的ACP方法
ACP方法将描述性智能(Descriptive Intelligence)、预测性智能(Predictive Intelligence)和引导智能(Prescriptive Intelligence)整合为基础智能(Foundation Intelligence)。描述性智能有助于构建人工系统,预测性智能促进计算实验,引导智能提供指导和优化平行执行的机制。因此,平行系统可以利用一个或多个虚拟(人工)空间来解决复杂性和智能之间的基本矛盾,使“不可解决”的问题“可解决”,从而为复杂决策问题提供有效解决方案。
知识在人工智能和CPSS中都扮演着至关重要的角色。知识自动化(Knowledge Automation)试图实现知识生成、获取、应用和再创造的循环过程。目标是将复杂系统的不确定性、多样性和复杂性(UDC)特征转变为智能系统的敏捷性、专注性和融合性(AFC)特征。为了实现这一目标,必须将知识自动化嵌入基于ACP方法的平行智能框架和过程中。
根据不同的应用,在平行智能中,实际系统及其相应的人工系统可以以不同模式连接。其核心是通过对现实与虚拟系统的行为比较,学习和预测系统的未来行为,并修改相应的控制策略。该框架有三种操作模式:学习和训练、实验和评估、控制和管理。在学习和训练模式中,人工系统与实际场景连接,作为操作员和管理人员学习和训练的“中心”。值得注意的是,人工系统不一定要与实际系统完全相同;它是系统在不同方向上可能的演变形式。在实验和评估模式中,人工系统作为计算实验的平台,用于分析和预测实际系统在不同场景下的行为。在管理和控制模式中,人工系统与实际系统实时在线连接,并以高保真度复制实际行为。通过识别实际系统与人工系统之间的行为差异,实现闭环反馈控制与优化。
在平行智能框架中,人工系统(A)是一个广泛的知识模型,可以看作是传统数学或分析模型的扩展。计算实验(C)提供了一种分析、预测和决策的方法,是传统模拟仿真的升级。平行执行(P)是一种由虚实交互组成的新反馈控制机制,用于锁定目标、指导行动、优化策略。人工系统与实际系统之间的闭环反馈、虚实交互和平行执行可以有效控制复杂系统,促使形成平行智能。总之,ACP方法使用小数据生成大数据,进而从大数据中提取深度智能,有效克服传统方法的局限性,解决复杂系统中现象之“涌现”与解决方案之“收敛”之间的矛盾。
平行智能框架的工作流程主要包括以下三个步骤:首先,构建与实际复杂系统对应的人工系统;其次,使用计算实验来训练、预测和评估复杂系统;最后,通过建立实际物理系统与虚拟人工系统之间的交互和相互学习,实现复杂系统的平行控制和管理。通过虚拟与现实的交互,平行智能可以不断将实际系统逼近人工系统,简化复杂系统研究中面临的UDC挑战,实现复杂系统的AFC管理和控制,赋能整个CPSS过程。
平行科学:智能科技之新IT与平行IT。正如我们所见,人工智能正在增强甚至重新定义以工业技术和信息技术为核心的生产力。换句话说,“智能工业”是通过智能技术来升级现有产业,从而改变我们的社会,推动科学研究范式的转变。当前的AI技术和应用已经清楚地表明,“智能工业”已经开始:大数据成为新的生产手段,区块链和智能合约重塑新的生产关系,大模型和机器人成为新的生产力。
在“工业4.0”之后,笔者在2014年提出“工业5.0”,希望利用人工智能技术,使“三类技术”协同发展,用于建设可持续、以人为本、以CPSS为新空间的工业社会。目前,国际学术界和工业界的共识是,工业5.0的核心概念是基于CPSS和智能驱动的“知识自动化”。其本质在于平行智能,促进虚拟与现实的平行协作,其显著表现形式为“新文科”“新科学”“新工程”。
AI4S的主要目的是利用智能技术推动传统科学研究的变革。当前,AI4S的显著特点是使用人工智能、机器学习和推理技术来处理和分析大数据,有效揭示数据之间的相互关系,并帮助科学家解决“维数诅咒”问题,从而更快、更准确地理解复杂现象,其核心也是“知识自动化”,与“工业5.0”的目标相契合。
当前三类技术的融合,与卡尔·波普尔的三个世界——物理世界、精神世界和人工世界相呼应,这相比于大语言模型和大视觉模型(LVMs)代表了更广阔的世界模型(World Model)视角。当前的大模型技术表明,改造工业和科学研究最直接、最自然的方法是通过真实系统和人工系统的平行化。这包括从自然科学到人工科学的转变,从物质生产到人工制造的转型,以及数字人和机器人与生物人的平行协同与合作。对于新的科学研究范式来说,这是“三个世界,三类科学家”:即“数字人科学家”、“机器人科学家”和生物(人类)科学家,它们共同构成了平行科学家(图3),进而建立“平行科研院所”和由“数字人CEO”管理的数字企业。
图3 平行科学:三个世界,三种技术,三类科学家,三种模式
随着大型模型的进步,高效参数微调和提示工程将在未来的科学研究中成为重要方法,这对当前科研人员的角色产生重大冲击。然而,科研人员不会面临失业,实际上他们的数量将显著增加,尽管他们的角色可能更像知识的“快递员”。此外,科学研究正从“大问题,大模型”转向“小问题,大模型”,并在特定领域进行垂直分割。这一趋势,伴随大型模型的持续进步和智能代理(agent)技术的成熟,催生了新型“数字人科学家”的出现,他们专注于科学研究中的“小问题,大模型”。与此同时,“机器人科学家”也被引入许多超越数字形式的科学研究活动,特别是在高风险、劳动密集型的科学实验工作中。例如,美国加州大学与谷歌等共同开发的A-Lab展示了机器人在加速新材料发现过程中的重要作用。在不久的将来,从分布式自主科学到自动实验室和无人科学研究工厂,“机器人科学家”将成为“智能工业社会”的重要组成部分。科学研究的工业化是不可避免的趋势,而“机器人科学家”将是其关键支撑。
科学研究已经从依赖自然中的直接观察和实验,发展到在受控实验室环境中进行实验,如今再到使用数学推理进行计算和理论实验。大型模型的出现,进一步使能基于人工系统进行虚拟平行实验,从而超越传统计算机模拟的能力。这一进步促进了社会科学中的众多“反事实实验”,推动了“新文科”“新科学”“新工程”的融合。因此,未来的科学研究模式将开启“三个世界、三种模式”的平行科学研究“新一天”,如图3所示。
自主模式:上午,时间占比超过一天的80%。主要的科学研究工作将由“数字人科学家”和“机器人科学家”自主完成,人类科学家只需远程监视即可。平行模式:下午,时间占比不足一天的15%。此时,人类科学家须介入,通过远程控制为“数字人科学家”和“机器人科学家”提供指导,以完成有一定难度和挑战的科学研究项目。专家或应急模式:晚上,时间占比少于一天的5%。此时,人类科学家成为主要角色,现场完成创新性、难度大的科学研究任务。
总而言之,我们在工业5.0时代建立了三大基石来支持AI4S。如图4所示,第一大基石包括业务大模型、场景工程(Scenario Engineering, SE)和以人为本的操作系统(HOOS)。第二大基石是工业5.0中的三类员工:生物员工(约占5%)、数字人员工(约占80%)和机器人员工(约占15%)。第三大基石是三种操作模式:自主模式(AM,超过80%)、平行模式(PM,不足15%)和专家/应急模式(EM,不足5%)。
图4 工业5.0时代平行智能三大基石
AI4S活动涉及先进的AI算法(赛博系统)、物理实验设备和传感器(物理系统)以及人类研究人员和组织框架(社会系统)的整合,这种整合反映了CPSS的核心原则,即将网络、物理和社会组件结合起来,创建智能、自适应系统。因此,AI4S不仅将复杂的AI技术应用于科学研究,还与CPSS的广泛跨学科方法相一致。在本质上AI4S可以被视为一种CPSS,目标是提高研究的效率和效果,满足人类和社会的需求。相应地,如图4所示,工业5.0三大基石和平行智能中的ACP方法也将是AI4S发展的重要支撑。
大模型驱动的AI4S前沿进展
近年来,AI4S在全球范围内广受关注,不但成为人工智能的重要研究方向,也是人工智能“AI+行业”垂直应用的重要前沿。AI4S通过结合机器学习、深度学习和大模型等技术,在帮助科学家解决复杂的科学问题、提高研究效率、发现新的科学规律、推动跨学科创新等方面发挥了重要作用,已被视为科学研究的第五范式。DeepMind的AlphaFold系列是AI4S的典型代表之一,特别是AlphaFold 3的推出标志着人工智能在细胞生物学领域的新纪元,不但能准确预测蛋白质结构,还能揭示分子间复杂相互作用,为加速药物设计和基因组学研究提供了新工具。AlphaFold系列的成功应用展现了人工智能技术在科学研究中的巨大潜力,为其他科学领域提供了应用AI技术的范例,推动了科学研究进入第五范式。AI4S在数学、物理、化学、生物、材料、生命、天文、地学、农学等领域都取得了进展,各类人工智能模型、方法和技术起到重要推动作用,笔者重点关注近两年兴起的大模型技术及其在各学科领域中的应用。
数学。人工智能在数学领域取得了重要进展,包括引导数学家对拓扑猜想证明、寻找解决组合优化问题的新程序、发现更快的矩阵乘法和排序算法等。在几何定理证明方面,大模型也发挥了关键作用。使用AI方法证明数学定理的历史已经有数十年,并创造了许多重要的里程碑。但几何定理证明是各个数学领域中公认的挑战,几何中的辅助线构造具有多样性和灵活性,定理证明的过程涉及无限分支因子的搜索空间,而缺乏人类证明示例又带来训练数据不足的困难。为克服这些挑战,来自谷歌DeepMind和纽约大学的专家提出了AlphaGeometry,这是一种用于欧几里得平面几何的定理证明器,它使用神经语言模型(Neural Language Model)在大量合成数据上从零开始训练,无需人类演示。AlphaGeometry将语言模型、符号推理、搜索算法相结合,能够解决几何领域内辅助线构造这一复杂任务,其能力达到了国际数学奥林匹克竞赛(IMO)金牌水平。
生物。在生物学领域中,AlphaFold系列最为引人注目。此外,单细胞RNA测序(scRNA-seq)帮助创建细胞图谱,对细胞异质性、疾病机制和潜在个性化治疗具有实际价值。尽管测序技术最近在表观遗传学、转录组学和蛋白质组学的多模式洞见等方面不断取得进展,但也带来了如参考映射、干扰预测和多组学数据整合等新挑战。为此,多伦多大学研究团队发布了生成预训练基础模型scGPT。受自然语言生成中的自监督预训练启发,scGPT采用transformer架构并在超过3300万个细胞数据上进行预训练,能够同时学习细胞和基因表示。scGPT展示了在零样本和微调场景中的预训练优势,其学习的基因网络与已知功能组高度一致,能够通过微调将预训练模型的知识转移到各种下游任务,如细胞类型注释、干扰预测以及多批次和多组学整合,实现更准确和生物学上更有意义的分析。
医药。通过全新药物设计发现新治疗化合物是药物研究中的一个重大挑战。传统方法由于分子空间巨大、资源密集,研究进程缓慢。计算方法如虚拟筛选和分子动力学加速了药物发现,但过于依赖现有分子。整合人工智能并促进合作可以解决生物复杂性。生成AI模型被用于药物发现,但在创建全新结构方面存在困难。类似于自然语言处理的自监督预训练在训练“化学语言模型”上取得了成功,这些模型将化学结构视为句子,每个符号代表一个化学实体。为利用AI的新进展,研究人员引入了一种全新药物设计引擎drugAI,通过将解码器Transformer模型与蒙特卡罗树搜索(MCTS)相结合,使其首次在生物信息学和化学信息学中应用。drugAI是一种迭代方法,允许模型改进其药物候选生成,确保分子满足物理化学和生物学约束,并有效结合目标。结果表明,drugAI在基准数据集上的有效性,显示出比现有方法更高的有效性和药物相似性。此外,drugAI确保生成的分子能强效结合目标,突显了其在加速各种疾病药物发现中的潜力。
化学。化学研究面临探索空间巨大、实验重复耗时、实验过程危险等挑战。为此,寻求面向化学研究的高效、安全、自动化的实验室(Self-driving Lab)是人们追求的目标。2023年3月14日,OpenAI发布了GPT-4,展示了其在化学研究自动化相关问题中的应用前景。实验室自动化与强大的语言模型的结合,能够有效整合自动化流动系统和移动平台,实现化学反应的自主发现和过程优化,推动化学研究的进展。卡内基梅隆大学的科学家们开发了Coscientist,这是一种基于多个语言模型的智能代理系统,能够自主设计、规划和执行复杂的科学实验。Coscientist利用互联网浏览工具、机器人实验API和其他语言模型来完成化学合成规划、文档导航、云实验室命令执行、液体处理等复杂科学任务,通过实验数据分析解决优化问题。Coscientist的设计理念与平行科学框架一致,人类化学家统筹基于大模型的“数字科学家”和自动化设备“机器人科学家”,加速了化学研究进展。除了Coscientist,近年来还涌现了基于大规模语言模型的方法和框架。ChemCrow是一个基于LLM化学代理,整合了18个专家设计的工具,以增强LLM在有机合成、药物发现和其他化学任务中的性能。ChemCrow自主规划和执行合成,并指导发现,展示了其在各种化学任务中的有效性。ChemCrow不仅帮助化学家,还在实验化学和计算化学之间架起桥梁,推动科学进步。大语言模型被用于预测化学,在文献中的工作表明GPT-3可以轻松地为化学任务进行微调,以自然语言准确回答化学问题。这种方法在小数据集上表现尤为出色,甚至优于传统技术。模型的多功能性表明它可以成为启动项目和提供预测任务基线的标准工具,从而有效利用其在基础模型中编码的集体知识。
材料。新材料在满足社会需求和推动技术前沿方面具有变革潜力。但是材料科学面临着与化学相似的挑战,不但存在材料合成配方组合空间巨大、实验筛选与验证效率低下等困难,也涉及高昂的成本和资源需求、对环境的影响、产业化应用前景等问题。为了应对计算筛选与创新材料实际实验合成之间的速度差异,科学家们提出了用于无机粉末固态合成的自主实验室A-Lab。A-Lab拥有一个完全自主的流程,集成了计算、文献中的历史数据、计划和解释结果的主动学习、提出合成配方的自然语言模型,以及使用机器人进行的实验。A-Lab在连续运行17天内实现了41种新化合物的惊人成果。
天文学。多年来,人工智能在天文学领域产生了重大影响。一方面是用AI算法对由天体观测和望远镜生成的大量天文数据进行分析,以识别天体、分类星系并检测罕见事件,如引力波。另一方面是用AI提高天文模拟的准确性和效率,帮助研究人员建模复杂的现象,如星系形成和宇宙演化。此外,AI正在辅助开发自主望远镜和天文台,这些设备可以根据科学目标和环境条件自动优先安排观测任务。在天文学中,光变曲线(Light Curve)是一种显示天体(如恒星、变星或超新星)亮度随时间变化的图像。通过分析光变曲线,天文学家可以了解这些天体的性质、演化和其中发生的物理过程。但传统的星震分析使用光变曲线的功率谱来估计振荡特性,在矮星中面临挑战,并且需要主序星的高节奏观测。为了解决这些挑战,科学家提出了一种新的基于Transformer的深度学习模型,并称其为Astroconformer。Transformers擅长捕捉长程相关性,非常适合分析类似恒星光变曲线的时间序列数据。这种方法允许直接在时间域内分析观测到的光变曲线,最大限度地减少信息损失,并消除额外后处理步骤的需要,其表现优于基于k近邻方法和卷积神经网络等传统AI方法。
AI4S面临的问题与挑战
近年来,尽管AI4S取得了很大进展,但仍面临技术、伦理、生态等方面的挑战。这些关键挑战因素可总结如下。
一是来自AI的挑战。首先是数据挑战。深度学习和大模型以海量数据为基础,而科学研究领域中数据的专业性和稀缺性,对AI模型训练是一个重大挑战。其次是可解释性差。许多AI模型,尤其是深度学习模型,通常被视为“黑箱”,使得解释其决策变得困难。在科学研究中,理解AI驱动的见解背后的推理是至关重要的,确保可解释性和可理解性也是必不可少的。最后是计算资源受限。开发和训练复杂的AI模型,尤其是深度学习模型和大语言模型,需要大量的计算资源。高性能计算基础设施的访问可能有限,阻碍了AI4S应用的可扩展性和部署。
二是来自科学的挑战。首先是专业领域差异大。不同的科学学科有独特的挑战和需求,将AI技术适应每个领域的特定特点,如物理学、生物学或化学,在模型开发和应用方面带来挑战。其次是专业知识的整合难度大。AI研究人员与领域专家之间的有效合作是必要的,弥合技术专长与特定领域知识之间的差距,对于开发符合科学界需求和约束的AI4S解决方案是必要的。
三是来自AI和科学的共同挑战。首先是缺乏标准化。AI4S中缺乏标准化的实践和评估指标,可能导致比较和重复研究结果的困难。标准化对于基准测试、评估模型和推广一致的方法论至关重要。其次是跨学科整合难。数据格式、方法和研究范式的差异,给在不同科学学科中整合AI技术带来了挑战。克服这些学科界限以创建统一的AI4S框架需要克服跨学科的障碍。最后是可迁移性受限。为一个科学领域开发的AI模型可能由于数据分布、特征空间和基础过程的差异,难以轻易转移到另一个领域,确保模型在不同领域的普遍性是一个持久的挑战。
四是其他方面的挑战。首先是教育和培训差距。AI技术的快速发展可能导致教育和培训方面的差距。确保研究人员和从业者具备理解、实施和评估AI4S方法所需的技能,对于该领域的进步至关重要。其次是伦理考量。AI4S中的伦理挑战包括训练数据中的偏见、公平性、隐私问题以及AI技术的负责任使用。确保AI应用符合伦理标准对于维护科学界的信任至关重要。最后是监管和法律框架。开发和部署AI4S应用需要应对复杂的监管和法律环境。确保遵守法规、解决数据隐私问题以及管理知识产权将成为持续的挑战。
综合以上四个方面,克服这些挑战对于发掘AI4S的全部潜力至关重要,而应对这些挑战需要AI和科学界的研究人员、政策制定者和从业者的合作努力。提出AI4S统一框架,建立可持续发展的AI4S生态系统势在必行。
HANOI:AI4S统一框架
建立AI4S统一框架的必要性。为了应对上述挑战,考虑AI4S跨学科的特点,构建一个通用和统一的框架可以更好地推动AI4S的发展。一是促进跨学科合作。不同的科学学科通常有独特的挑战、数据类型和方法论。统一框架能够为不同背景的研究人员提供一个共享见解、方法和最佳实践的共同基础,促进跨学科合作。二是加强知识整合。统一框架能够整合来自各种科学领域的知识,形成统一知识库,为各领域之间架起知识桥梁,探索更全面和协同的问题解决方法。三是高效的资源利用。通用框架可以高效利用资源,包括计算能力和专业知识。研究人员可以利用共享的工具和方法,避免在不同科学领域重复工作和资源浪费。四是系统化的知识转移。知识交流对于将AI的进步转化为对科学研究的有意义贡献至关重要,通用框架有助于AI研究人员和各个科学领域的专家之间进行系统化的知识转移。五是模型和方法的跨领域迁移。统一的框架促进了AI模型和方法在不同学科间的可迁移性。为一个科学领域开发的模型可以在经过最少修改的情况下应用于另一个领域,加速AI4S解决方案的开发和部署。六是基准测试和评估。通用框架为AI4S方法提供基准测试和评估的基础。标准化的指标和评估标准允许研究人员一致地评估模型的性能,促进领域内的比较和进步。七是应对共同挑战。许多科学领域面临共同的挑战,如数据稀缺、噪声和可解释性问题。一个统一的框架允许研究人员集体应对这些挑战,开发出可以惠及多个学科的通用解决方案。八是跨领域启发。共享框架鼓励探索跨领域洞见,帮助研究人员识别出单一学科内不易显现的共同模式、关系和原则,从而引领新的发现和创新。九是促进教育和培训。统一框架可以简化进入AI4S领域研究人员的教育和培训。标准化的工具和方法使拥有一个学科专长的个人更容易将AI技术应用于另一个学科,促进更包容和协作的研究环境。十是指导伦理规范。统一的框架为解决AI4S中的伦理考量和标准提供了基础。共享的指南可以帮助研究人员应对伦理挑战,确保在科学研究中负责任和透明地使用AI技术。十一是促进标准化。通过统一框架促进AI4S中的标准化,促进研究中的一致性和可重复性。标准化的实践有助于提升AI应用的可信度,并鼓励跨学科的最佳实践采用。总之,一个通用和统一的AI4S框架在多个科学学科间促进合作、知识整合和资源高效利用。它为应对共同挑战、促进跨学科见解和指导AI技术在科学研究中的伦理和负责任使用提供了基础。
HANOI-AI4S:基于平行智能的统一框架。AI4S的发展目标与智能的新哲学相一致,即在物理世界中安全,在网络世界中安全,在生态世界中可持续,对个人需求敏感,为所有人服务,并在所有方面都智能。使用认知智能和平行智能用于智能科学和技术,使用加密智能和联合智能用于智能操作和管理,使用社会智能和生态智能用于智能发展和可持续性。在这方面,笔者提出了HANOI方法,集成人工、自然和组织智能,实现知识自动化,为可持续和智能社会提供服务。为了实现一个通用的AI4S框架,笔者基于HANOI方法,利用平行智能、数字孪生、元宇宙、Web 3.0和区块链等技术,提出了HANOI-AI4S。如图5所示,HANOI-AI4S框架的特点是多维度,涵盖自然科学问题(自然世界)、人工系统、领域知识、数据集、人类角色和组织机制(如DAO和DeSci)。该框架不仅有助于系统分析AI4S,还促进跨学科交流与融合,使得传统上孤立的科学社区可以共享见解和创新。
图5 HANOI-AI4S框架示意图
一是人工系统。人工系统在平行智能框架中发挥着至关重要的作用,为解决实际科学问题提供了测试平台,并使得高效的计算实验成为可能。在AI4S中,许多工作利用模拟器进行各种用途,如数据/指令生成和结果验证。人工系统不仅限于虚拟现实或数字孪生。最近,随着生成式AI方法的兴起,基础模型如大语言模型和多模态模型实际上充当了现实世界的虚拟系统(或世界模型),在证明数学猜想和发现新材料等研究领域展示了显著潜力。
二是领域知识(Knowledge)。领域知识提供了有效应用AI方法于特定科学问题所需的背景理解和专业知识。例如,在物理和生物学中,自然现象通常复杂和多样,因此拥有领域知识对于设计准确的模型、解释结果等环节都起着至关重要的作用。同时,数据集(Dataset)为训练、验证和改进AI模型提供了基础,使它们能够进行有根据的预测、发现模式并促进科学理解。本质上,数据是AI4S的生命线,为理解科学现象和训练模型以贡献科学知识提供了实证基础。数据的丰富性、质量和多样性直接影响AI在科学研究中的应用效果。因此,从观测、实验、模拟中收集的数据,或者通过增强方法生成数据,是AI4S研究的重要手段。
三是人类角色。科学家和AI研究人员在AI4S的研究和开发中起着关键作用。AI专家和领域专家之间的跨学科合作对于成功将AI技术整合到不同领域的科学研究中至关重要。同时,人类科学家和AI技术(数字科学家和机器人科学家)之间的合作是共生的。AI带来了计算能力和效率,而人类科学家则贡献了创造力、专业知识和情境理解,确保AI4S应用符合科学目标和伦理标准。
四是组织和生态系统(DAO)。科学研究是一个涉及人力、设备、资金支持等多方面需求的复杂项目,有序的组织和健康的生态系统对于AI4S至关重要。一个有组织的生态系统通过确保资源的高效利用和人员的有效激励,促进AI4S工作的可持续发展。相比于AI模型/算法,AI4S的组织和生态尚处于起步阶段,没有得到足够的关注。然而,一个良好的趋势是,越来越多的科学家开始认识到组织和生态的重要性。他们倡议利用新技术发展新的范式,如DeSci、DAO和联邦智能等,都是此方向上的有益探索。
从基础智能到基于TAO的联邦智能系统
AI4S与S4AI的目标与使命。AI4S与S4AI(Science for AI)是一对互相促进的有机体。一方面,AI4S在物理学、化学、生物学、天文学等各个科学领域取得了显著进展。随着大语言模型等AI技术的进步,AI4S不断前进,提供了应对复杂科学问题的新方法,并加快了发现的步伐。另一方面,科学研究人员还应从S4AI的角度看待问题,尤其是SS4AI(Social Science for AI),其核心是人工智能及更广泛智能科学技术的伦理和治理问题。必须认识到,从AlphaGo到ChatGPT,当前的前沿人工智能技术无法被解释,而广义上的智能在其内涵上也无法科学解释;虽然人工智能无法被解释,但必须能够被治理,这是S4AI的目标和使命。区块链、智能合约、DAO和DeSci已经将“治理”从文科转移到硬科技的“科学和工程”领域。新加密技术、非同质化代币(Non-Fungible Token, NFT)、联邦学习、联邦智能、联邦生态的技术体系,为智能技术的治理提供了支撑,但这些技术仍然不够。“数字人科学家”的引入为AI4S的治理提供了新的视角,即培养和教育用于科学研究的数字人。正如“平行教育”研究所设想的那样,通过数字学校和数字研究所,生物人类和数字科学家可以在各种大型教育和科学模型中学习和训练,相互促进,实现“对齐”和“治理”,就像人类自身经历的教育和科学研究过程一样。DeepMind联合创始人兼首席执行官Demis Hassabis指出:“我相信,人工智能将成为科学家部署的一种元解决方案,增强我们的日常生活,让我们都能更快、更有效地工作。如果我们能广泛而公平地部署这些工具,创造一个每个人都能参与并受益的环境,我们有机会丰富和推进整个人类的发展。”但如何实现每个人都能参与并受益的美好愿景?DeSci、DAO和联邦生态系统等使能技术正在为此奠基。
分布式自主科学正在受到不同领域科学家越来越多的关注。DeSci在建立AI4S的强大生态系统中可以发挥重要作用,提供多种潜在的益处。虽然传统的集中式科学研究方法普遍存在,但去加密分布式模型为合作、透明和包容性带来了新的机会。DeSci的一个目标是基于加密分布式网络实现数据共享,这对于训练强大、可推广和适应科学场景的模型至关重要。此外,DeSci鼓励开放访问模型、算法和研究成果。虽然联邦学习和群体学习可以在一定程度上解决数据隐私和模型专有权问题,但倡导开放仍然是必不可少的。这种开放性在AI4S中促进了共享知识库的发展,使研究人员能够相互借鉴并加速多领域的进展。DeSci能够使得来自不同地域和机构的研究人员互相合作,通过交流丰富AI4S应用视角,增强知识库和数据集的多样性。这种协作方法促进了社区驱动的创新,使更广泛的贡献者能够参与开发和改进AI4S方法,带来创造性的解决方案和多样化的应用。此外,DeSci在提升AI4S方面提供了若干关键促进作用。一是加密分布式可以增强AI模型开发和部署的透明度。透明度对于获得科学界的信任和确保研究结果的可重复性至关重要。二是加密分布式系统在面对故障或中断时通常更具弹性。加密分布式生态系统可以在数据源、算法和计算资源方面提供冗余,降低单点故障的风险。三是DeSci可以利用代币化和激励机制,奖励贡献数据、算法或计算资源的参与者。在AI4S中,这可以鼓励合作和高质量共享资源的发展。
DAO和DeSci都是加密分布式、社区驱动系统的例子。DeSci对开放访问、协作和社区驱动创新的强调与DAO的原则一致,后者优先考虑加密分布式、透明度和社区治理。DeSci和DAO都旨在赋予个人和社区参与决策过程的权力,并在各自领域内取得有意义的进展。虽然DeSci专注于将加密分布式原则应用于科学研究和创新,但DAO是一个更广泛的概念,可以应用于各种加密分布式的组织结构。在DeSci的背景下,DAO可以帮助分配资源,决定研究方向,并以透明和加密分布式的方式管理平台的整体运行。在不同领域,DAO的数量在增加,例如在生命和健康领域涌现出VitaDAO、ValleyDAO和AthenaDAO等一系列应用。
区块链技术对于支持DAO的自主性、透明性和效率至关重要,使其能够以分布式和民主的方式运作。DeSci和DAO的底层是一系列支持技术。区块链、分布式账本技术(DLT)、智能合约、加密分布式存储、点对点网络和开放访问平台等技术在确保科学数据、交易和合作的安全透明记录方面发挥关键作用,代币化(Tokenization)对于激励和奖励生态系统中的参与者也至关重要。通过采用这些技术,DeSci能够创建一个包容、高效并促进全球合作的加密分布式科学研究生态系统。首先,区块链提供了加密分布式账本,确保没有单一实体控制整个组织,促进透明度并防止操纵。智能合约,即直接写入代码的自执行合约,自动执行DAO内的某些功能,确保决策和交易遵循预定义的规则,无需中介。区块链的透明性允许利益相关者实时查看操作和交易,促进信任并防止欺诈。其次,区块链的不可篡改性确保了记录的完整性,并提供了可靠的审计追踪。最后,区块链在DAO内启用了安全透明的投票机制,使参与者可以使用代币或其他方法对提案进行投票、作出决策并治理操作。
构建基于TRUE DAO智能联邦系统的智能生态。如何协调数据和计算资源,加速核心算法创新,促进工业和社会应用,并服务于各行业和群体的需求,已成为大模型时代的重要课题。我们需要充分利用大模型能力,警惕其可能带来的环境和社会问题,制定法规和激励政策来应对这些挑战。尽管DeSci具有显著优势,但需要考虑诸如治理、标准化和协调等挑战。只有将分布式原则与传统中心化机制进行深度融合,发挥全面优势,才能促进AI4S生态系统的健康快速发展。为此,在吸纳DeSci运动优势的同时,我们还需要一个针对人工智能科学研究的更健壮的生态系统。区块链与分布式自主管理的结合形成了TAO(TRUE DAO),为创建一个完整的可信数据、算法和操作的生态系统打下了基础,联邦生态系统框架顺势而生。智能联邦生态系统由数据隐私、信息安全和资源整合为驱动,建立在一系列支持安全、共识、激励和合约的区块链技术之上。联邦生态系统包括四个子模块,即联邦数据、联邦控制、联邦管理和联邦服务。
首先,联邦数据是联邦生态系统的关键组成部分,解决了大模型时代的数据孤岛问题。它包含联盟内所有节点的数据、存储、计算和通信资源。为了确保隐私,联邦数据分为私人或非私人,通过联邦控制实现数据联合。在AI应用中,联邦数据支持有效的数据检索、预处理、处理、挖掘和可视化。它解决了大模型训练中的数据丢失、低质量和版权保护等问题,同时能够确保隐私,实现数据共享,并为公共模型提供安全保障。
其次,联邦控制是联邦生态系统的核心执行部分,确保信息安全并保护数据权利。它采用分布式策略对大型系统进行高效、安全和可靠的控制。私人数据保留在本地节点,而非私人数据的所有权和使用权分离。联邦控制使用联邦合约定义数据联邦,建立对数据存储、传输、共享和使用的控制。其目标是确保信息安全,打破数据孤岛,实现数据联合,这对于联邦智能和联邦生态系统的整体成功至关重要。
再次,联邦管理是联邦生态系统的核心部分,负责根据整体目标作出管理决策,并实时动态调整。它有助于实现生态系统的最佳状态和目标,确保数据安全。联邦管理通过控制和管理联邦数据提供个性化服务和安全保障。它利用基于区块链的合约、激励和共识确保安全,同时将数据转化为智能安全。联邦管理结合数据、计算能力和人力资源得到科学可靠的决策,提高管理效率。在人工智能和区块链的支持下,联邦数据被聚合,转化为决策和措施,实现从数据到智能的进化,助力个体智能转化为集体智能。
最后,联邦管理的目标是通过对联邦数据的联邦控制实现联邦服务。因此,联邦数据是联邦管理的数据基础和联邦服务的数据安全保障。通过设计一系列联邦管理规则,并确保联邦节点数据的安全和隐私,从而通过联邦数据的管理和控制实现联邦服务。同时,在实现联邦服务的过程中,会不断产生大量新数据,这些数据可以添加到联邦数据中进一步迭代优化联邦管理决策。
综上所述,联邦生态系统基于智能生态系统的研究理念,具有将数据转化为智能的能力。它不仅适用于以中心节点为主导的联邦,也适用于中心节点被削弱或完全分布式的联邦。通过联邦生态系统,联邦节点可以通过松散联盟建立合作关系,加强每个节点的隐私保护,调动联邦节点的积极性,提高联邦成员的参与度,从而提高联邦的整体表现。联邦生态系统的框架和方法已成功应用于工业控制、交通物流、社会人口等领域,联邦生态系统在AI科学研究中也将具有巨大潜力。
当前,AI大模型不断更新升级,“数字人科学家”“机器人科学家”成为人类科学家的左膀右臂,在“三个世界,三种IT”的助力下,推动AI4S不断取得突破性进展。“三类科学家,三种工作模式”的平行科学研究范式正在形成,AI4S未来的愿景将是Science of SCE+:慢(Slow)、随意(Casual)、享受(Enjoy)、轻松(Easy)、优雅(Elegant)。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 22:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社