||
AI伸缩定律和涌现能力的信息论诠释
徐大专
(紫金山实验室,南京航空航天大学,南京)
一个源自经典信息论的理论发展,正在为人工智能的“黑箱”注入一束理论之光。
在人工智能,尤其是大语言模型的研究中,两个现象正吸引着全球科学家的目光:“伸缩定律”(Scaling Laws) 与 “涌现”(Emergence)。
前者描述了模型性能随其规模(参数、数据、算力)增长的经验规律,以OpenAI模型(2020年)和DeepMind模型(2022年)为代表;后者则指模型在规模跨越某个神秘阈值后,突然“解锁”前所未有的新能力(如复杂推理、代码生成)。然而,这些现象目前大多基于观测数据总结,其背后深刻的理论根源仍是未解之谜。
近期,作者在信息论基础领域的一项突破——“率熵函数”(Rate Entropy Function) 理论——为理解这些AI核心现象提供了一个意想不到的、优雅而统一的数学框架。
一.从数据压缩到率熵函数:一个普适的线性定律
为了理解这个框架,让我们首先回到信息论的源头:数据压缩。香农的率失真理论回答了“用多小的代价(码率R)能描述一个信源,并保证失真度不超过一个定值”。然而,其核心的失真度量(如均方误差)是外部强加的,导致绝大多数分布的“率失真函数”没有闭式解,难以直接应用。
作者近期的工作发展了这一思路。我们提出,应使用信源模型内禀的统计不确定性作为失真度量,即后验熵H = h(X|Y)。在此度量下,我们定义率熵函数R(H),它表示在平均后验熵不超过H的条件下,描述信源所需的最小信息率。
在后验熵失真准则下可以证明一个简洁而有力的结论:对于任意熵有限的离散信源或连续信源,其率熵函数具有普适的线性闭式解:
这里h(X)表示离散信源的熵或连续信源的微分熵。
这个公式揭示了信息压缩的一般规律:压缩的本质就是用码率(R)去“兑换”不确定性的减少(h(X)-H)。这是一个线性的权衡。更有重要的是,后验熵失真能自然地映射到概率分布的物理失真。对于高斯分布,后验熵失真等价于均方误差;对于拉普拉斯分布,后验熵失真等价于绝对值失真;对于均匀分布,后验熵失真等价于区间长度(面积或体积)。后验熵失真度量的普适性天然匹配通用AI的大数据场景,不再需要人为指定均方误差这样的工程性指标。
二.解码AI缩放定律:模型规模如何“兑换”性能
现在,让我们将镜头转向人工智能的训练过程。训练一个模型去拟合海量数据(文本、图像、代码),其本质正是试图找到一个高效的“编码方案”,用有限的模型参数(可视为一种“描述”或“表示”)去“压缩”整个训练数据分布所蕴含的“世界知识”。
• 信源X:即训练数据量(D),其不确定性由熵h(X)来度量。
• 熵失真度H:代表我们希望模型在某个任务上达到的性能水平。H越低,意味着模型在该任务上的不确定性越小,性能越好。这可以是对问答的准确率、代码的功能正确性、或生成文本的连贯性等信息论层面度量。
• 码率R:模型参数量(N)乘以每个参数量化的比特数(B),决定了模型内部“码本”的容量与复杂度。参数域对应于数据压缩的码本域。
首先解释参数规模的缩放定律。当h(X)<R时,模型的训练处于无失真编码范围,这种情况不是大语言模型训练的主导场景。此时模型的性能随熵(数据)的增加线性增长。
当h(X)>R时,全部训练数据的熵大于模型的表示能力R=NB。这时模型的性能R(H)=h(X)-H(即表示能力)随参数规模N线性增长,或等价于失真度H(即后验熵)随参数规模N线性下降。
换句话说,在世界知识总量大于模型的表示能力时,率熵函数理论指出,大模型的性能随参数规模线性增加(幂律的指数等于1)。目前大模型仍然处于参数规模缩放的统治区域。
数据规模的缩放定律由数据与其不确定性(熵)的自身规律所规定。当数据规模很小时,比如数据由人类文明经典组成时,熵随数据量线性增长。随着数据规模增加,数据间的冗余越来越大,则熵随数据量的增长逐渐进入饱和区域。
值得注意的是,大模型的计算量(C)代表实现高效“编码”(即训练优化)过程所需要的算力和消耗的能量。这种代表实现复杂性的度量指标不在信息论的解释框架之内。但这或许提示我们,缩放定律中关于计算量的经验规律,可能关联着实现‘编码’的优化过程本身的效率与极限,是未来理论整合的一个有趣方向。
复杂系统在规模达到一个临界阈值时,系统会发生类似物理学中的“相变”跃迁。当R跨越R(H)这一临界阈值时,AI大语言模型也表现出类似物理系统相变的“涌现”能力。
香农有失真编码定理指出,对于任意目标性能(后验不确定性水平H),都存在一个临界的码率值R(H):
当实际可用码率 R < R(H) 时,无论采用何种精妙的“编码方案”(即模型架构和训练算法),都不可能使模型的平均性能达到H。系统处于“不可达区域”。
当实际可用码率 R > R(H) 时,则一定存在某种编码方案,可以使模型的性能无限逼近H。系统进入“可达区域”。
这正是“涌现”现象的信息论解释。模型规模(N, D, C)的平滑增长,对应于可用码率R的缓慢增加。当R从下方逼近并最终跨越某个特定任务所对应的临界阈值时,会发生什么?
在阈值之下(R < R(H):模型的内在表征能力不足以捕捉完成该复杂任务所需的、精细的、高维的信息模式。无论怎样调整训练细节,其性能都被信息论极限所禁锢,表现平平,仿佛“学不会”。
在阈值之上(R > R(H):模型的容量首次越过了该任务所需的信息复杂度门槛。优化算法能够找到一种内部表示,利用这“多出来”的一点信息率,有效地组织知识,从而突然、可靠地展现出该任务上的能力。性能曲线从平台期发生“相变”,跃升至新的增长轨道。
不同的任务,因其内在的信息复杂度不同,拥有不同的临界阈值R(H)。简单的任务阈值低,较小的模型就能“涌现”;复杂推理、代码生成等任务阈值高,需要巨大的模型规模才能触发。这完美解释了为何“涌现”能力是分阶段、随着模型扩大而依次出现的。
结语
率熵函数理论从一个全新的视角——信息表示与压缩的基本极限——统一诠释了AI的缩放定律与涌现现象。它指出,模型性能的平滑增长与能力的阶跃涌现,都严格遵循着信息论关于码率、信源熵与失真度之间关系的基本法则,从而为这些看似经验性的规律奠定了坚实的数理基础。
这一理解意味着,人工智能的研发可以从当前主要依靠大规模实验的“工程探索”阶段,逐步进入一个可被理论原则引导的“理性设计”阶段。展望未来,以下几个方向值得深入探讨:
从解释到预测:我们需要建立从具体任务(如数学推理、代码生成)到其信息复杂度的映射方法,从而在训练前就能理论预测实现该任务所需的模型规模下限。
从规模到效率:理论明确指出,核心是“有效码率”。这促使我们更关注如何通过模型架构创新(如状态空间模型、混合专家)、训练策略优化等方式,最大化单位参数的信息表征效率,而非单纯追求参数量的增长。
融合计算视角:当前理论框定了性能的“静态”上限,而未描述达到此上限所需的“动态”优化过程。一个更完备的理论需要融合优化与学习动力学,以解释和指导训练本身的有效性。
从通信到感知,从模型驱动到数据驱动,以信息理论为指导,我们有望更精确、更高效地驶向通用人工智能时代。
拓展阅读: 《空间信息论》(科学出版社,2021) 《感知信息论》(电子工业出版社,2024)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-30 21:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社