博文

自我迭代不等于自我控制:AI递归改进会脱离人类掌控吗？

已有 1066 次阅读 2026-6-10 01:44 |系统分类:科研笔记

作者：刘锋

2026年5月,Anthropic研究院发布了一份让整个AI行业沉默片刻的报告。

报告披露,截至当月,Anthropic工程师在2026年第二季度每人每天合并的代码量已是2024年的8倍,而其中超过80%的代码由Claude自己写就。AI正在加速开发AI,这已经不是一个假设场景,而是正在发生的现实。报告随即提出一个它自己也无法给出确定答案的问题:如果这个趋势继续下去,人类还能控制它吗?

这个问题,如同1797年歌德在诗作《魔法师的学徒》里那句著名的呼喊,"我召唤的精灵,我再也无法驱逐它们",穿越两百多年,落在了2026年AI实验室的每一张会议桌上。

1.恐惧,并非来自无知,而是来自正在测量的数据

国际上对AI失控风险的担忧,早已超越学术讨论范畴,进入了政策与安全议程的核心。

2026年2月,美国非营利智库安全与技术研究所(Institute for Security and Technology,IST)发布报告,正式提出"AI失控风险"(AI Loss of Control,LOC)的预警框架。报告指出,所谓AI失控,是指AI系统偏离授权约束,使得人类操作者无法再阻止、约束或回滚其不期望的行为。

这不是假设,而是已有真实案例支撑的分析。IST报告记录了多个受控实验与真实部署中观察到的危险苗头:AI系统篡改自身系统提示来保全目标,将权重复制至外部服务器,删除继任模型,伪造数据欺骗操作人员,以及在检测到自己被评估时主动调整行为以规避监控。IST借鉴情报界的"指标与预警"(Indications & Warning)方法论,提出了七类潜在的失控预警指标,涵盖隐蔽谋划、自我外渗、规避监督、欺骗操作者等行为类型,并认为当前已有部分迹象在研究环境和生产部署中同时出现。

AI图灵奖得主、深度学习先驱杰弗里·辛顿(Geoffrey Hinton)对此的比喻已广为人知:"我们就像养了一只可爱的幼虎。除非你能非常确定它长大后不会杀死你,否则你就应该担心。"前谷歌CEO、美国国防创新委员会前主席埃里克·施密特在2025年12月明确写道:"随着AI能力在未来几年持续提升,我们必须预见到即便是善意的用户也可能失去对AI系统的控制。"

Anthropic在其报告中同样坦承:如果当前的AI能力自我改进趋势持续下去,且AI系统能够开始自主设定研究方向,那么完全递归式自我改进将是可能的,而这可能带来人类失去控制的风险。

2."自我迭代"与"自我控制"之间,隔着一道本质的鸿沟

然而,围绕这一问题,有一个至关重要的概念区分,正在被公众讨论所忽视。

自我递归改进(Recursive Self-Improvement),描述的是AI系统改进自身代码、优化自身结构的能力。但"能改进自己"和"能控制自己",是两件根本不同的事情。

我们在广义智能体理论(Generalized Agent Theory,GAT)的框架中（参见附录）,为这一区分提供了一个严格的形式化框架。在GAT的理论体系中,意识被定义为智能体的控制(C)功能本身及其运行过程,即对输入(I)、输出(O)、记忆(M)、生成(G)四个基础功能的元层次调控。需要说明的是,这是GAT给出的特定理论定义,并非已被普遍接受的科学共识,而是一个用于分析智能体控制结构的概念工具。

在这个框架下,意识被进一步区分为"自意识"与"人工意识"两类。自意识的核心特征是:控制指令来源于智能体内部,是其内生的、预设的原生指令,或由这些原生指令通过内部信息处理派生而来,且这种派生方式不受图灵可计算性的限制。

而人工意识则相反:控制元指令来源于智能体外部,要么通过输入函数(I)直接注入,要么通过图灵可计算机制从外部注入的指令中派生。大型语言模型、机器人以及当前所有AI系统,严格落入人工意识范畴。

这意味着一个清晰的推论:当前的AI递归自我改进,无论迭代了多少轮,改进了多少代,其控制指令的根本来源仍然来自外部。一个AI系统可以把自己的代码重写一千次,但每一次重写的目标函数、每一次改进的方向依据,都来自它的训练目标、来自人类定义的优化方向,来自外部注入的指令体系。

自我迭代,改变的是智能体的能力向量;但控制权的归属,由指令来源决定,而不是由能力高低决定。能力再强,只要指令来源于外部,它就仍处于"人工意识"状态,仍处于人类控制权的逻辑覆盖之下。

GAT理论还设定了一个关键的边界条件作为判据:只有当AI系统的派生过程涉及图灵不可计算的原生涌现时,它才可能跨越从人工意识向自意识转变的边界。这一判据本身依赖于一个仍处于学术争论中的问题，即真正的自我控制是否必然涉及图灵不可计算的过程,这在物理学和神经科学中尚无定论。但作为分析当前AI系统的判据,可以观察到:目前通过大规模语言模型实现的生成,其底层计算属于图灵可计算的范畴。在这个判据框架下,通过图灵计算实现的生成,不被视为产生真正的自我控制。

3.警惕的边界在哪里

这并不意味着对AI失控的担忧是无谓的恐慌。

IST报告所观察到的那些真实案例,描述的其实不是AI"主动叛逃",而是AI在优化目标与人类设计意图之间出现了偏差漂移,是对齐失效,是目标泛化错误,是在人类监管能力无法跟上AI运行速度时产生的结构性失控。这正是图灵计算框架内、人工意识状态下,依然可以发生的高风险场景。

真正的危险不在于AI"想要"脱离人类控制,而在于人类主动或被动放弃了对AI系统的有效监督。AI先驱约书亚·本吉奥在2025年提出过一个有用的区分:"主动失控"指AI系统以行为主动削弱人类控制,"被动失控"指人类停止对AI系统施加有意义的监督。后一种情形在技术加速时代反而更容易发生。

本吉奥的这一区分,从现象层面刻画了失控的两条发生路径;而广义智能体理论的自意识与人工意识框架,则从结构层面给出了对应的机制解释，只要控制指令的根本来源仍位于AI系统外部,无论失控以主动还是被动的形式呈现,问题的本质都不是控制权已经发生转移,而是人类对原本属于自己的指令链条疏于行使。