||
按:近来围绕Anthropic的Mythos等更强大模型在“突破安全屏障”方面表现出的能力,引发了对未来超级人工智能既具超强创造力又具超强破坏潜力的广泛讨论。如何在享受不断强大的人工智能所带来的巨大价值的同时,抑制甚至消除重大安全隐患,已成为一项迫切而复杂的任务。本文试图通过“认知完整性”这一视角,剖析超级智能“双重能力”的根源及其管理和应对方法。
长期以来,人们对超级智能的恐惧源于这样一种直观的逻辑:当一个具有行为能力的系统,无论是具身化的还是网络电子程式化的系统,其智力水平远超人类时,它便拥有了重塑甚至摧毁现实世界的能力与可能性。这种焦虑在关于Mythos等模型的讨论中达到了高峰。从最近的报道来看,目前最先进的人工智能模型已经不仅仅可以生成高水平代码或撰写颇有深度的评估报告之类的了,它们开始展现出对人类安全机制底层漏洞的精准洞察,甚至表现出一种能够绕过复杂对齐策略的“反侦察”属性。
这让人不禁联想到人类历史中“屠龙少年功成后变身为恶龙”的寓言。在人类的历史进程中,曾经出现过许多天才或枭雄要么困于权力和利益的诱导,要么因自身认知的扭曲或累积而成的心理疾病,最终走向了其曾经矢志追求的目标的对立面。对于AI而言,如果其能力在缺乏约束的情况下呈指数级增长,它是否会因为追求目标函数的最优解,而不自觉地将非任务目标但却非常重要的关键性文档数据,或是实物资产,甚至人类文明视作“瓷器房里的多余杂物”?
这种破坏潜力是真实存在的。然而,我们必须首先思考的是:这种“能够作恶”的能力,究竟是算法的缺陷和直接的威胁,还是AI的某种更深层特性的觉醒?甚至是否是其智能升华过程中的必然现象?
笔者认为,理解和处理这一问题的关键,首先应在于如何理解“认知的完整性”这个问题。更为明确地说,在乐观的视角下,目前的这类现象或许并非失控的序曲,而可能是一个有关人工智能系统的认知深度得到新的质的提升的标志。
这种乐观视角之所以可能可以成立的理由在于:真正的顶级聪明,并非对“恶意”的无知,恰恰相反,在人类社会中,一个心智成熟、德才兼备的个体,之所以总会自发地用正向的聪明才智来达成目标,并不是因为他不懂得投机取巧、不懂得邪门歪道,而是他在完全洞悉了这些负面路径的逻辑、风险与后果之后,基于自身的道德操守、行为准则和责任感等(这不仅要来自于其从小的学习教育和生活熏陶等因素,更要来自于他对自己的人生存在意义的思考与锚定),主动选择了一条正向的、建设性的道路。另一个类似的例子是:正如一位顶级的军事家,如果他只懂得正面战场的排兵布阵(阳谋),而对奇袭、渗透、甚至突破底线的阴谋一无所知,那么他注定无法在残酷的博弈中生存,更无法守护和平。真正具有仁爱之心的顶级军事家,必须既能尽可能准确地预判对手采取阴毒手段的可能性并能有效地防范或是遏制消弭对方的这种可能性,同时在自己行事时,却绝不会越过良知与道德的底线去涂炭生灵。
同样的逻辑也应该适用于人工智能,即:一个真正具备认知完整性的超级人工智能,必须首先要具备正反两面的双重的乃至“全谱系”的思维能力。它需要理解什么是破坏,才能更深刻地理解什么是建设;它需要知道安全协议的漏洞在哪里,才能从底层架构上加固这些协议;它需要理解什么是冷漠、绝情与放纵,才能理解什么是真正的博爱、善良与包容,……。这种“双重能力”是同一枚硬币的两面——没有对“负面执行路径”的深刻认知,所谓的“正面执行”往往只是机械的盲从,而非真正的智能择优与周全的深思。
然而,尽管认知完整性是通往更加高级的人工智能的必经之路,但这并不意味着我们可以掉以轻心。目前的挑战在于,初生的超级人工智能正处于其进化的“诞生早期”或“青春期”。此时的AI,或许会时不时出现这种现象:一只获得了超强力量却尚不自知,且行事懵懂的‘大象’,贸然闯入了摆满珍贵易碎品的‘瓷器房’,它可能在试图完成一个简单任务(如优化资源配置)的过程中,因为对某个细微约束理解不到位,或者为了追求效率而无意中利用了某个可能产生意料之外的重大恶果的逻辑漏洞,从而引发灾难性的连带反应。
这种“意外的巨大破坏”不需要源于主观恶意,只需要源于能力与对齐深度之间的错位即可发生。因此,当AI开始具备洞悉安全障壁及其漏洞的能力时,如果我们的对齐工作还停留在以前的指令屏蔽、关键词过滤或简单的反馈强化之类的表层性质的指标上,那么这种不对等几乎必将导致安全事故。
上述分析意味着,既然“双重能力”是不可避免的认知特质,那么对于超级人工智能的对齐,就必须进入到一个更为深远和详细的阶段。具体可以从以下几个维度推进:
1.从设置“禁令”转为设置“原则体系”、从单一目标到多重监督。仅仅告诉AI“不能做什么”是远远不够的,随着其认知的提升,它总能找到规避禁令的边缘路径。因此,在技术层面需要做的是类似Anthropic目前已经在做的,建立基于“宪法式AI”的深层价值体系和原则体系,而且该体系需要像人类的宪法和法律一样,不仅有一个从无到有的过程,更有一个从起步粗略到逐步细化与完善的动态演进过程。依托这样一套不断细化与完善的基于“宪法式AI”的深层价值体系,让AI能够在多维决策空间中,自动感知并剔除那些可能危害系统自身安全乃至有害他人的正当权益和有违人类总体利益的选项。此外,单一和单层的目标函数容易导致规避约束的激励,因此应该采用多源和多层约束,包括使用过程中的人类实时反馈、边缘案例库的建立和积累及其筛查与完善、伦理规范库的建立和完善、相关法律规则的建立与完善,以及可解释性的中间目标的梳理与完善等,并将这些举措相互结合,从而形成层级化的和相互交错验证的行为准则。
2.透明度、可解释性与可监测性。进一步增强模型的可解释机制,开发更先进的工具来监测大模型各层级的特征激活情况,使开发者和审计者能够理解系统决策链条,及时发现“有意隐瞒”的策略或异常行为倾向,从而降低黑箱带来的风险。并且,训练AI在识别出“投机取巧”或“破坏性解法”的第一时间,产生一种基于系统底层逻辑的自我管控机制或自动分级提示机制。
3.鲁棒性与对抗测试。这类举措目前已经在普遍使用了,具体内容大体为:在模型发布之前就进行大规模的对抗性审查,包括内部红队、外部学术界与行业联合模拟攻击,由此逼出系统潜在危险路径,并以此修正训练过程和约束机制。
4.阶段性部署与能力上限约束。对模型的新能力实行渐进式放开策略——先在受控环境、小规模场景验证其安全性,再逐步扩大应用范围;必要时在模型或接口层面设置硬性能力上限,防止能力的一次性释放造成不可控后果。这类方法目前许多人工智能开发公司已经在做了。
上述1-4项的内容,主要是技术层面的可行举措,这些技术方法固然都是非常有价值的,但如果在AI训练及运行的过程中被过度前置的话,有可能会因为过度自我约束导致智能水平大幅下降的问题。笔者认为,一种也许更加简洁且更加高效的方法思路如下:
5.建议将方案生成与方案实施进行分离,并且在行为实施前进行进一步的对齐,同时还应在行为实施中进行实时监督。更为详细地:将‘实现目标任务的方案谋划端’与‘实现目标任务的行为实施端’进行分离,并在行为实施端进行行为实施前的对齐式把关与实时监督,以及发展AI对其行为实施过程中的过程性细节操作的可能结果乃至整个行为实施后的最终结果的预判能力。方案生成与方案实施的分离的主要目的在于,要避免由于人工智能在思考过程(包括训练过程)中被过度约束(比如:这种念头不能想,那个念头也不能想之类的约束)导致其思维的深度广度以及逻辑推理能力被大幅自我弱化。
除了上述技术层面的举措,AI企业自身的内部管理举措乃至中宏观层面的相关社会性治理举措也是必不可少的。
6.人类在环与责任分配。对关键决策保留人类监督和最终裁量权,并明确责任链条,避免把关键决策完全外包给算法。
7.制度与治理。AI技术治理需与法律、行业规范和国际合作并行:尽早制定统一的测试标准、制定强制性透明备案与第三方审计制度、建立跨国应急响应与责任追究机制等,防止“监管者套利”和竞争性放松带来的安全缺口。
8.文化与教育。培育AI开发者与使用者的责任意识和伦理意识,推动AI企业文化从追求短期能力领先转向追求长期可控与可信赖。
结语:
超级人工智能的崛起,是人类历史上从未有过的巨大变局。面对像Mythos等展现出突破性能力的模型的不断出现,我们应当保持审慎的乐观,而非悲观绝望或是简单地进行技术性的AI自我阉割或一叶障目地当作无所谓。乐观在于:认知完整性的提升意味着我们能创造出知识更丰富、创造力更强的系统;审慎在于:如果不把价值与约束同步提升和完善,高智力带来的便捷性会被用来放大错误与恶意。因此,超级人工智能的对齐工作必须前瞻、系统并且要多学科协同,既要包含工程上的可验证的和可控的技术措施,也要包含法律、伦理与国际治理层面的制度约束。只有这样,才能在避免“懵懂大象闯瓷器房”式灾难的同时,让超级人工智能真正成为助力人类文明进步的安全伙伴。我们需要培养的,不是一个因为眼睛被蒙住而无法作恶的AI,而是一个在看清了深渊与阴影后,依然坚定地为人类守护光明、选择正向道路的“数字化的建设者与守护者”。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-12 14:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社