||
《Nature(自然)》杂志日前发表的一篇论文(参考资料[1]),宣布谷歌DeepMind首次使用大型语言模型(LLM)发现了一个科学难题的解决方案。他们使用一个名为FunSearch的LLM工具,破解了纯数学领域一个著名的难题。
DeepMind的首席科学家和研究团队负责人普什梅特·科利(Pushmeet Kohli)说:“据我们所知,这是第一次由大型语言模型做出真正的、新的科学发现”。
几日来,从MIT(麻省理工学院)科技评论网站,到CACM(美国计算机协会通信)网站,海外主要科学网站纷纷报道:“谷歌DeepMind使用大型语言模型解决了一个未解决的数学问题”、“语言模型新突破登上《自然》:FunSearch解决了一个长期的数学挑战”、“人工智能可以帮助数学家产生新的解决方案”、“DeepMind 人工智能在未解决的问题上超越人类数学家”...。
[ 科学难题 ]
科学中的许多问题,难求解(获得解答困难),但易验证(评估给出的解答是否正确容易)。例如,在数学和计算机科学领域,被称为NP完全优化问题(NP-complete optimization problems)——人们普遍认为不存在解决此类问题的“容许时间”(即所谓的“多项式时间”)的算法,但存在“容许时间”的验证或评估过程,以测量给出解的质量。在DeepMind的这篇论文中,科学家重点讨论了允许有“有效评估函数”的问题,该函数可用于测量候选解的质量。他们的目标是生成一个求解程序,使其输出在评估中获得高分,并最终优于最知名的解决方案。
DeepMind的科学家在两个具有挑战性的难题上测试了FunSearch。
第一个挑战性的难题是纯数学中的the cap set problem(上限集问题),即寻找空间中最大的点集,其中任何三个点都不能位于同一条线上。cap set问题诞生于70年代,由牛津大学数学家罗恩·格雷厄姆(Ron Graham)提出。著名数学家、加州大学洛杉矶分校陶哲轩教授曾经说,这是他最喜欢的开放式数学问题。
第二个难题是the bin packing problem(装箱问题),寻找将一组不同尺寸的物品包装到最少数量的固定尺寸箱中的装箱方案。装箱在许多领域都有应用,从切割材料到在计算集群上调度作业。DeepMind的论文专注于在线情景,即在收到物品后立即打包(与我们可以提前访问所有物品的离线情景相反)。解决在线装箱问题需要设计启发式方法,用于决定将收到的物品分配到哪个箱子。
[ FunSearch ]
FunSearch是“Searching the Function space(搜索函数空间)”的缩写,它使用了一个叫做Codey的LLM,用计算机程序编写数学问题的解决方案。Codey配有一个“Evaluator(评估器)”,并根据程序的表现,自动对其进行排名。
FunSearch延续了DeepMind在基础数学和计算机科学方面应用人工智能的一连串发现。首先,AlphaTensor找到了一种方法来加速许多不同类型代码的核心计算,打破了50年的记录。然后,AlphaDev找到了让每天使用数万亿次的关键算法运行更快的方法。然而,这些工具没有使用大型语言模型。两者都建立在DeepMind的游戏人工智能AlphaZero的基础上,通过将数学问题视为围棋或象棋中的谜题来解决它们。
图1 FunSearch延续了 DeepMind 在基础数学和计算机科学方面应用 AI 的一系列发现
(图片来源:Stephanie Arnett/MIT Technology Review,参考资料[2])
FunSearch 采取了不同的策略。它结合了一个名为 Codey 的大型语言模型,这是 Google PaLM 2 的一个版本,该版本在计算机代码上进行了微调,与其他系统相结合,这些系统拒绝错误或荒谬的答案,并重新填补好的答案。
研究人员首先用Python(一种流行的编程语言)勾勒出他们想要解决的问题。但是他们忽略了程序中指定如何解决这个问题的代码行。这就是FunSearch的用武之地。它让Codey来填补空白——建议可以解决问题的代码。
然后,第二个算法对Codey得出的结果进行检查和评分。最好的建议——即使还不正确——会被保存并返回给Codey,Codey会再次尝试完成程序。在数百万条建议和几十次重复整个过程(花了几天时间)后,最佳程序被组合起来并反馈给LLM,允许系统稳步地将程序更改为更强大的程序。FunSearch能够提供问题正确的、以前未知的解决方案。
[ 讨论 ]
大型语言模型(LLM)在解决复杂任务方面表现出了巨大能力,从定量推理到理解自然语言。然而,LLM有时可能会出现幻觉,导致它们做出看似合理但不正确的陈述。这阻碍了当前大型模型在科学发现中的使用。谷歌DeepMind的新工具FunSearch将有助于改变这一点,表明它们确实可以用于科学发现。
威斯康星大学麦迪逊分校的数学教授、论文的合著者乔丹·埃伦伯格(Jordan Ellenberg)说:“FunSearch不是生成一个解决方案,而是生成一个找到解决方案的程序”。他指出,“FunSearch的一个重要特点是,人们可以看到LLM创建的成功程序,并从中学习”。这使这项技术有别于其他应用,在其他应用中,人工智能是一个黑盒。“最令我兴奋的是模拟人机合作的新模式,”埃伦伯格补充道,“我不打算用这些来代替人类数学家,而是作为一种力量倍增器。”
加州大学洛杉矶分校的陶哲轩赢得了包括菲尔兹奖在内的许多数学领域的最高奖项,他对FunSearch的功能很感兴趣。“这是一个充满希望的范例,”他说,"这是一种利用大型语言模型的有趣方式"。
FunSearch优于AlphaTensor的一个关键优势是,理论上,它可以用来寻找各种问题的解决方案。这是因为它产生代码——生成解决方案的配方,而不是解决方案本身。研究人员现在正在探索FunSearch可以解决的科学问题,遇到的主要障碍之一是需要有可以自动验证的解决方案。这对生物学中的许多问题会产生困难——在生物学中,假设通常需要通过实验室里的实验进行验证。
尽管如此,研究人员对这项技术将如何影响计算机科学感到兴奋。DeepMind研究副总裁、人工智能负责人普什梅特·科利说:“这实际上将改变人们对待计算机科学和算法发现的方式”。
参考资料:
[1] Romera-Paredes, B., Barekatain, M., Novikov, A. et al. Mathematical discoveries from program search with large language models. Nature (2023). https://doi.org/10.1038/s41586-023-06924-6
[2] Will Douglas Heavenarchive. Google DeepMind used a large language model to solve an unsolvable math problem. December 14, 2023
https://www.technologyreview.com/2023/12/14/1085318/google-deepmind-large-language-model-solve-unsolvable-math-problem-cap-set/
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 10:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社