|
人类制造能对话作诗的ChatGPT,但是并不清楚这种软件的工作机制。这是一种非常奇特的现象。过去我们一般都认为,人造的机器,一定知道原理。但现在人类制造出人类不能理解其机制的东西。这大概是人类历史上少有的情况。科学家能否把ChatGPT的工作原理搞清楚?有人甚至认为这不可能。如加州斯坦福大学的认知科学家迈克尔·弗兰克(Michael Frank)将这项任务描述为类似于调查“外星智能”。
ChatGPT is a black box: how AI research can break it open (nature.com)
1950年,伟大的英国计算机理论开创者艾伦·图灵发表了一篇开创性的论文。“'机器能思考吗?我建议考虑这个问题”。
作为定义“思考”意味着什么的棘手任务的替代方案,图灵提出了一个他称之为“模仿游戏”的场景。如果一个人(代号C)使用测试对象皆理解的语言去询问两个他不能看见的对象任意一串问题。对象为:一个是正常思维的人(代号B)、一个是机器(代号A)。如果经过若干询问以后,C不能得出实质的区别来分辨A与B的不同,则此机器A通过图灵测试。该测试游戏抓住了公众的想象力,并被称为图灵测试。图灵测试(英语:Turing test,又称“图灵判断”),是阿兰·图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。
尽管这是一个经久不衰的想法,但该测试在很大程度上被认为过于模糊 - 过于专注于欺骗,而不是真正的智能行为 - 无法成为人工智能(AI)的严肃研究工具或目标。但是,语言在评估和创造智能方面可以发挥什么作用的问题在今天比以往任何时候都更加重要。这要归功于被称为大型语言模型(LLM)的AI系统功能的爆炸式增长,这些系统是由加利福尼亚州旧金山的OpenAI公司和其他高级机器人制造的ChatGPT聊天机器人背后的。正如名称“大型语言模型”所暗示的那样,这些工具纯粹基于语言。
这些机器人具有令人毛骨悚然的人类对话技巧,这种对话有时令人愉快的,以及一系列其他能力,包括论文和诗歌写作、编码、通过艰难的考试和文本摘要——引发了人们对人工智能及其崛起对人类意味着什么的兴奋和恐惧。但这些令人印象深刻的成就背后是一个紧迫的问题:ChatGPT到底是如何运作?与其他神经网络一样,LLM的许多行为来自训练过程,而不是由程序员指定。因此,在许多情况下,LLM行为方式的确切原因以及支撑其行为的机制尚不清楚 - 甚至对他们自己的创造者也是如此。
正如《自然》杂志在专题报道中报道的那样,科学家们正在拼凑LLM的真正能力和驱动它们的潜在机制。加州斯坦福大学的认知科学家迈克尔·弗兰克(Michael Frank)将这项任务描述为类似于调查“外星智能”。
正如研究人员所指出的那样,揭示这一点既紧迫又重要(S. Bubeck et al.https://arxiv.org/abs/2303.12712 的预印本;2023). 为了使ChatGPT在医学和法律等领域解决问题并提高生产力,人们需要更好地了解这些工具的成功和失败。这将需要新的测试,提供比现有测试更系统的评估。
LLM摄取大量文本,他们用它来学习预测句子或对话中的下一个单词。这些模型通过反复试验来调整其输出,这些可以通过人类培训师的反馈进一步完善。这个看似简单的过程可以产生强大的结果。与以前的人工智能系统不同,以前的人工智能系统专门用于执行一项任务或具有一种能力,LLM可以轻松完成考试和问题,其广度在几年前对于单个系统来说似乎是不可想象的。
但随着研究人员越来越多地记录,LLM的能力可能很脆弱。尽管 GPT-4 是 ChatGPT 背后的 LLM 的最先进版本,在一些学术和专业考试问题上取得了优异成绩,但即使是对问题措辞方式的小干扰也会使模型脱落。这种鲁棒性的缺乏表明现实世界中缺乏可靠性。
科学家们现在正在辩论LLM的引擎盖下发生了什么,鉴于这种混合性能。一方面是研究人员,当模型在某些测试中取得成功时,他们看到了推理和理解的微光。另一方面,有些人认为它们的不可靠性表明该模型并不像看起来那么聪明。
对LLM的能力进行更系统的测试将有助于解决争论。这些将提供对模型优势和劣势的更有力的理解。与药物获得治疗批准和发现可能的副作用的过程类似,对人工智能系统的评估可以让它们被认为对某些应用是安全的,并且可以使它们可能无法向用户声明。
五月,由新墨西哥州圣达菲研究所的计算机科学家Melanie Mitchell领导的一组研究人员报告了ConceptARC的创建(A.https://arxiv.org/abs/2305.07141 预印本;2023):一系列视觉谜题,用于测试人工智能系统对抽象概念的推理能力。至关重要的是,这些谜题通过以 16 种方式测试每个概念来系统地测试系统是否真正掌握了 10 个基本概念(剧透:GPT-4 表现不佳)。但ConceptARC只解决了推理和概括的一个方面。
然而,对药物的信心不仅仅来自临床试验中观察到的安全性和有效性。了解导致其行为的机制也很重要,使研究人员能够预测它在不同情况下的功能。出于类似的原因,解开导致LLM行为的机制 - 可以被认为是模型的潜在“神经科学” - 也是必要的。
研究人员希望了解LLM的内部运作,但他们还有很长的路要走。另一个障碍是缺乏透明度 - 例如,在揭示构建LLM的公司训练的数据模型方面。然而,监管机构对人工智能公司的审查正在增加,并可能迫使未来披露更多此类数据。
在图灵首次提出模仿游戏七十三年后,很难想象人工智能领域还有比了解LLM的优势和劣势以及驱动它们的机制更重要的挑战。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-25 13:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社