||
AI 距离人类智能还有多远?
近期发表在《自然》期刊上的一篇研究分析了人工智能和人类智能的差距。人工智能似乎只能作为人类智力的延伸和辅助。AI就如同一把刀,可以用于有益的生活,也可以变作一种凶器。我们似乎应该为AI的发展立法和规范其朝着有益于人类社会发展的方向前进。
OpenAI 的 o1 等大型语言模型引发了关于实现通用人工智能(AGI)的争论。但它们不太可能独自达到这一里程碑。
OpenAI 的最新人工智能 (AI) 系统于 9 月发布,并做出了大胆的承诺。聊天机器人 ChatGPT 背后的公司展示了其最新的大型语言模型 (LLM) 套件 o1,称其具有“全新水平的 AI 能力”。总部位于加利福尼亚州旧金山的 OpenAI 声称,与之前的 LLM 相比,o1 的工作方式更接近人类的思维方式。此次发布为数十年来一直酝酿的争论火上浇油:机器究竟需要多长时间才能完成人类大脑可以处理的所有认知任务,包括从一项任务推广到另一项任务、抽象推理、规划和选择调查和学习世界的哪些方面?
这种“通用人工智能”(AGI)可以解决棘手的问题,包括气候变化、流行病以及癌症、阿尔茨海默氏症和其他疾病的治疗。但如此巨大的力量也会带来不确定性——并对人类构成风险。加拿大蒙特利尔大学的深度学习研究员 Yoshua Bengio 说:“由于滥用人工智能或我们失去对它的控制,可能会发生糟糕的事情。”过去几年法学硕士的革命引发了人们的猜测,认为 AGI 可能近在咫尺。但一些研究人员表示,考虑到法学硕士的构建和训练方式,仅靠它们还不足以实现 AGI。“仍然缺少一些部分,”Bengio 说。很明显,关于 AGI 的问题现在比以往任何时候都更加重要。“我一生中的大部分时间都认为谈论 AGI 的人都是疯子,”坦佩亚利桑那州立大学的计算机科学家 Subbarao Kambhampati 说。“现在,当然,每个人都在谈论它。你不能说每个人都是疯子。”为什么通用人工智能争论发生了变化人工智能这个短语在 2007 年左右进入了时代精神,当时它出现在由人工智能研究人员 Ben Goertzel 和 Cassio Pennachin 编辑的同名书中。它的确切含义仍然难以捉摸,但它大致指的是具有类似人类推理和泛化能力的人工智能系统。除了模糊的定义之外,在人工智能的大部分历史中,很明显我们还没有达到通用人工智能。以 AlphaGo 为例,这是谷歌 DeepMind 为玩围棋而创建的人工智能程序。它在围棋比赛中击败了世界上最优秀的人类玩家——但它的超人品质是狭隘的,因为这就是它所能做的一切。LLM 的新功能彻底改变了格局。与人类大脑一样,LLM 具有广泛的能力,这使得一些研究人员认真考虑某种形式的通用人工智能可能即将出现 1,甚至已经出现的想法。考虑到研究人员仅部分了解 LLM 实现这一功能的方式,这种广泛的功能尤其令人吃惊。LLM 是一种神经网络,一种受大脑启发的机器学习模型;该网络由人工神经元或计算单元组成,这些神经元或计算单元按层排列,具有可调节的参数,这些参数表示神经元之间的连接强度。在训练过程中,最强大的 LLM(如 o1、Claude(由旧金山的 Anthropic 制造)和谷歌的 Gemini)依赖于一种称为下一个标记预测的方法,其中反复向模型输入已被切分成称为标记的块的文本样本。这些标记可以是整个单词,也可以只是一组字符。序列中的最后一个标记被隐藏或“屏蔽”,并要求模型对其进行预测。然后,训练算法将预测与屏蔽的标记进行比较,并调整模型的参数,使其下次能够做出更好的预测。
该过程持续进行——通常使用数十亿个语言片段、科学文本和编程代码——直到模型能够可靠地预测被屏蔽的标记。到这个阶段,模型参数已经捕获了训练数据的统计结构及其所包含的知识。然后,这些参数被固定下来,当模型给出新的查询或“提示”时,这些参数在训练数据中不一定存在,该过程称为推理。一种称为转换器的神经网络架构的使用使 LLM 远远超越了以前的成就。转换器允许模型了解某些标记对其他标记具有特别强烈的影响,即使它们在文本样本中相距甚远。这使得 LLM 能够以似乎模仿人类的方式来解析语言——例如,区分这句话中“bank”一词的两个含义:“当河岸被洪水淹没时,水损坏了银行的 ATM,使取款变得不可能。”事实证明,这种方法在各种情况下都非常成功,包括生成计算机程序来解决用自然语言描述的问题、总结学术文章和回答数学问题。在此过程中,其他新功能也不断涌现,尤其是随着 LLM 规模的扩大,这增加了 AGI 也有可能在 LLM 变得足够大时出现的可能性。其中一个例子就是思路链 (CoT) 提示。这涉及向 LLM 展示如何将问题分解为更小的步骤来解决问题的示例,或者只是要求 LLM 逐步解决问题。CoT 提示可以让 LLM 正确回答以前让他们困惑的问题。但这个过程对小型 LLM 效果不佳。LLM 的局限性据 OpenAI 称,CoT 提示已集成到 o1 的运作中,并成为该模型威力的基础。弗朗索瓦·乔莱 (Francois Chollet) 曾是谷歌位于加州山景城的一名人工智能研究员,去年 11 月离职创办了一家新公司。他认为,该模型包含一个 CoT 生成器,该生成器会为用户查询创建大量 CoT 提示,并提供一种从选项中选择好提示的机制。在训练过程中,o1 不仅要学会预测下一个标记,还要学会为给定查询选择最佳的 CoT 提示。例如,根据 OpenAI 的数据,CoT 推理的加入解释了为什么 o1-preview(o1 的高级版本)在国际数学奥林匹克 (International Mathematical Olympiad) 资格考试中正确解答了 83% 的问题,国际数学奥林匹克是一项针对高中生的著名数学竞赛。相比之下,该公司之前最强大的 LLM GPT-4o 的得分仅为 13%。
但是,尽管如此复杂,o1 也有其局限性,并不构成 AGI,Kambhampati 和 Chollet 表示。例如,在需要规划的任务上,Kambhampati 的团队已经表明,尽管 o1 在需要多达 16 个规划步骤的任务上表现出色,但当步骤数增加到 20 到 402 之间时,其性能会迅速下降。Chollet 用抽象推理和概括测试挑战 o1-preview 时也看到了类似的局限性,他设计了这项测试来衡量 AGI 的进展。测试采用视觉谜题的形式。解决它们需要查看示例以推导出抽象规则,并使用该规则来解决类似谜题的新实例,而人类相对轻松地做到这一点。Chollet 说,无论规模大小,法学硕士在解决需要重新组合所学知识以解决新任务的问题方面的能力有限。 “LLM 无法真正适应新事物,因为它们没有能力从根本上掌握知识,然后在运行中对这些知识进行相当复杂的重组以适应新环境。”LLM 可以提供 AGI 吗?那么,LLM 会提供 AGI 吗?对它们有利的一点是,底层 Transformer 架构可以处理和查找除文本之外的其他类型信息中的统计模式,例如图像和音频,前提是有办法适当地标记这些数据。在纽约市纽约大学研究机器学习的 Andrew Wilson 和他的同事表明,这可能是因为不同类型的数据都具有一个共同的特征:此类数据集具有较低的“Kolmogorov 复杂度”,定义为创建它们所需的最短计算机程序的长度 3。研究人员还表明,Transformer 非常适合学习具有低 Kolmogorov 复杂度的数据中的模式,并且这种适用性会随着模型的大小而增长。 Transformer 能够模拟大量可能性,从而增加训练算法找到合适问题解决方案的机会,并且这种“表现力”会随着规模的扩大而增加。Wilson 说,这些是“我们真正需要的通用学习要素”。尽管 Wilson 认为 AGI 目前还无法实现,但他表示,使用 Transformer 架构的 LLM 和其他 AI 系统具有 AGI 类行为的一些关键特性。
然而,也有迹象表明,基于 Transformer 的 LLM 存在局限性。首先,用于训练模型的数据即将耗尽。旧金山研究人工智能趋势的机构 Epoch AI 的研究人员估计,用于训练的现有公开文本数据库存可能会在 2026 年至 2032 年之间耗尽。还有迹象表明,随着 LLM 规模的扩大,其收益并不像以前那么大,尽管目前尚不清楚这是否与数据中的新颖性减少有关,因为现在已经使用了很多数据,还是其他原因。后者对 LLM 来说是个坏兆头。伦敦谷歌 DeepMind 研究副总裁 Raia Hadsell 提出了另一个问题。强大的基于 Transformer 的 LLM 经过训练可以预测下一个 token,但她认为,这种单一的关注点太过有限,无法实现 AGI。她说,建立一次性或大量生成解决方案的模型可以让我们更接近 AGI。一些现有的非法学硕士系统中已经采用了一些有助于构建此类模型的算法,例如 OpenAI 的 DALL-E,它可以根据自然语言描述生成逼真的、有时甚至令人迷幻的图像。但它们缺乏法学硕士的广泛功能。为我构建一个世界模型神经科学家对 AGI 需要哪些突破有着敏锐的直觉。他们认为,我们的智力源于大脑能够构建“世界模型”,即我们周围环境的代表。这可以用来想象不同的行动方案并预测其后果,从而进行规划和推理。它还可以用来通过模拟不同的场景,将在一个领域学到的技能推广到新任务中。有几份报告声称有证据表明法学硕士中出现了基本的世界模型。在一项研究 5 中,麻省理工学院的研究人员 Wes Gurnee 和 Max Tegmark 声称,一个广泛使用的开源法学硕士系列在对包含这些地方信息的数据集进行训练时,开发了对世界、美国和纽约市的内部表征,尽管其他研究人员在 X(以前的 Twitter)上指出,没有证据表明法学硕士正在使用世界模型进行模拟或学习因果关系。在另一项研究 6 中,哈佛大学计算机科学家 Kenneth Li 和他的同事报告了证据,一个小型法学硕士在棋盘游戏 Othello 玩家的走法记录上进行训练后,学会了内部表示棋盘状态,并用它来正确预测下一步合法走法。然而,其他结果表明当今人工智能系统学习的世界模型可能不可靠。在一项这样的研究中 7,哈佛大学的计算机科学家 Keyon Vafa 和他的同事使用了纽约市出租车行驶过程中转弯的庞大数据集来训练基于 Transformer 的模型,以预测序列中的下一个转弯,该模型几乎以 100% 的准确率做到了这一点。通过检查模型生成的转弯,研究人员能够证明它已经构建了一个内部地图来得出答案。但作者写道,这张地图与曼哈顿(参见“人工智能的不可能街道”)几乎没有相似之处,“包含具有不可能的物理方向的街道和高于其他街道的天桥”。Vafa 说:“虽然该模型在某些导航任务中确实表现良好,但它在地图不连贯的情况下表现良好。”当研究人员调整测试数据以包括训练数据中不存在的不可预见的绕行路线时,它无法预测下一个转弯,这表明它无法适应新情况。人工智能的不可能街道:经过训练的人工智能系统预测纽约曼哈顿出租车行驶路线的结果被叠加在真实街道的地图上。人工智能系统的地图包含不可能方向的街道和不存在的桥梁。
反馈的重要性加利福尼亚州山景城谷歌 DeepMind 的 AGI 研究团队成员 Dileep George 表示,当今的 LLM 缺乏的一个重要特征是内部反馈。人脑充满了反馈连接,允许信息在神经元层之间双向流动。这使得信息从感觉系统流向大脑的更高层,从而创建反映我们环境的世界模型。这也意味着来自世界模型的信息可以回流并指导获取进一步的感官信息。例如,这种双向过程会导致感知,其中大脑使用世界模型来推断感官输入的可能原因。它们还支持规划,使用世界模型来模拟不同的行动方案。但目前的 LLM 只能以附加的方式使用反馈。在 o1 的情况下,似乎正在发挥作用的内部 CoT 提示——其中生成提示以帮助回答查询并在 LLM 产生最终答案之前反馈给它——是一种反馈连接的形式。但是,正如 Chollet 对 o1 的测试所示,这并不能确保万无一失的抽象推理。
包括 Kambhampati 在内的研究人员还尝试在 LLM 上添加外部模块(称为验证器)。这些模块会检查 LLM 在特定环境中生成的答案(例如用于创建可行的旅行计划),如果答案不达标,则要求 LLM 重新运行查询 8。Kambhampati 的团队表明,借助外部验证器的 LLM 能够比普通 LLM 更好地创建旅行计划。问题在于研究人员必须为每个任务设计定制的验证器。“没有通用的验证器,”Kambhampati 说。相比之下,使用这种方法的 AGI 系统可能需要构建自己的验证器以适应出现的情况,就像人类可以使用抽象规则来确保他们推理正确一样,即使是对于新任务也是如此。利用这些想法来帮助生产新 AI 系统的努力还处于起步阶段。例如,Bengio 正在探索如何创建具有与当今基于转换器的 LLM 不同架构的 AI 系统。其中一种架构使用他所谓的生成流网络,可以让单个 AI 系统学习如何同时构建世界模型以及使用它们进行推理和规划所需的模块。LLM 遇到的另一个大障碍是它们是数据吞噬者。伦敦大学学院的理论神经科学家 Karl Friston 建议,未来的系统可以通过让它们能够决定需要从环境中采样多少数据来构建世界模型并做出合理的预测,而不是简单地吸收它们输入的所有数据,从而提高效率。Friston 说,这将代表一种代理或自主权,这可能是 AGI 所需要的。“你在大型语言模型或生成 AI 中看不到这种真正的代理,”他说。 “如果你拥有某种可以在某种程度上进行选择的智能产品,我认为你正在向 AGI 迈出重要的一步,”他补充道。能够构建有效世界模型和集成反馈回路的人工智能系统也可能更少地依赖外部数据,因为它们可以通过运行内部模拟、假设反事实并使用这些数据来理解、推理和计划,从而生成自己的数据。事实上,2018 年,当时在东京谷歌大脑工作的研究人员 David Ha 和瑞士卢加诺-维加内洛 Dalle Molle 人工智能研究所的 Jürgen Schmidhuber 报告称9 他们构建了一个神经网络,可以有效地构建人工环境的世界模型,然后用它来训练人工智能进行虚拟赛车比赛。
如果你认为具有这种自主性的人工智能系统听起来很可怕,那么你并不孤单。除了研究如何构建 AGI 之外,Bengio 还提倡将安全性纳入人工智能系统的设计和监管中。他认为,研究必须专注于训练能够保证自身行为安全性的模型——例如,通过建立机制来计算模型违反某些特定安全约束的概率,并在概率过高时拒绝采取行动。此外,政府需要确保安全使用。“我们需要一个民主的程序,确保个人、公司甚至军队以对公众安全的方式使用和开发人工智能,”他说。那么,实现 AGI 有可能吗?计算机科学家说没有理由不这么认为。“没有理论上的障碍,”乔治说。新墨西哥州圣达菲研究所的计算机科学家梅兰妮·米切尔同意这一观点。“人类和其他一些动物证明了你可以实现这一点,”她说。 “我认为生物系统与其他材料制成的系统相比并没有什么特别之处,原则上,其他材料制成的系统会阻止非生物系统变得智能。”但是,即使有可能,对于它的到来可能有多近,人们也没有达成共识:估计范围从几年到至少十年不等。乔治说,如果创建了一个 AGI 系统,我们一看到它就会知道。Chollet 怀疑它会悄悄地靠近我们。“当 AGI 到来时,它不会像你想象的那么引人注目或具有开创性,”他说。“AGI 需要时间才能充分发挥其潜力。它会先被发明出来。然后,你需要扩大规模并应用它,然后它才能真正开始改变世界。”《自然》636,22-25(2024 年)doi:https://doi.org/10.1038/d41586-024-03905-1
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 09:11
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社