||
(Kimi说在原来的界面上写的太多了,不能写了,所以换了一个界面,内容的安排和格式有了一些变化)
第二十二章 自由能原理:推断作为存在的基础
一、亥姆霍兹的遗产:无意识推断
1867年,德国物理学家赫尔曼·冯·亥姆霍兹(Hermann von Helmholtz)在《生理光学手册》第三卷中提出了一个革命性的观点:感知不是对外部世界的被动镜像,而是主动的、无意识的推断。
亥姆霍兹观察到,视觉系统经常"看到"实际不存在的东西——填充盲点、运动后效、双稳态知觉。这些不是系统的缺陷,而是其工作方式的必然结果。大脑没有直接访问外部世界的特权,只有模糊、不完整的感官输入。它必须基于先验知识和当前输入,推断外部世界最可能的状态,才能产生连贯的感知。
这就是无意识推断(Unconscious Inference):感知是大脑对外部原因的最佳猜测。我们意识不到这个推断过程,只意识到推断的结果——一个稳定、连贯、有意义的世界。
亥姆霍兹的洞见超前于时代。一个多世纪后,它成为自由能原理(Free Energy Principle, FEP)的历史源头。但亥姆霍兹留下了一个关键问题未解决:推断的数学基础是什么? 感知的最优性标准是什么?大脑如何知道它的猜测是"最佳"的?
这些问题需要等待统计物理和信息论的发展,才能找到严格的数学表述。
二、从统计物理到神经科学:自由能的旅程
自由能概念源于19世纪的热力学。亥姆霍兹自由能定义为:

其中U是内能,T是温度,S是熵。自由能度量系统在恒温条件下可用的有用功——它是"自由"的,可以用于驱动过程。
20世纪,自由能成为统计物理的核心工具。吉布斯和玻尔兹曼证明,平衡态系统的行为可以通过最小化自由能来理解。变分自由能(Variational Free Energy)提供了计算复杂系统性质的近似方法:

其中
是能量期望值,
是熵,两者都在近似分布q下计算。最小化F等价于找到最接近真实后验的近似分布。
2005年,伦敦大学学院的神经科学家卡尔·弗里斯特(Karl Friston)将变分自由能引入神经科学,提出了自由能原理。核心主张是:所有自适应系统都最小化变分自由能。
这不是隐喻,而是数学定理:任何自组织、自维持的系统,必然表现出最小化自由能的动力学。弗里斯特证明,从感知到行动,从学习到选择,所有生命过程都可以统一在自由能最小化的框架下。
但自由能原理面临一个深层问题,与量子场论的重整化困境同源:当系统模型趋于复杂时,复杂性项可能发散。这正是第24章UV自由方案将要解决的问题。
三、变分自由能的数学:准确性与复杂性的权衡3.1 基本定义
考虑一个系统,其内部状态为μ ,观测为o 。系统通过内部模型
近似外部世界的真实后验p(ψ∣o) ,其中ψ是外部隐藏状态。
变分自由能定义为:

或等价地分解为:

3.2 两项的意义
准确性项(预期惊讶):度量
预测观测o的能力。如果内部模型赋予似然p(o∣ψ)高概率,这一项小;如果预测差,这一项大。这对应于预测编码中的预测误差。
复杂性项:度量
与先验p(ψ)的偏离。如果内部模型复杂(远离先验),这一项大;如果简单(接近先验),这一项小。这对应于奥卡姆剃刀——在解释数据时,选择最简单的模型。
3.3 最小化的意义
最小化自由能意味着同时:
最大化准确性:更好地预测观测,减少预测误差
最小化复杂性:保持模型简洁,避免过拟合
这正是贝叶斯模型选择的实现:在证据p(o)固定时,最小化F等价于最大化p(o) (模型证据)。
3.4 广义坐标与动态系统
弗里斯特的关键创新是引入广义坐标(Generalized Coordinates):将状态扩展为位置、速度、加速度等高阶运动:

这使得自由能原理可以处理动态系统,而不仅是静态推断。在广义坐标下,运动方程可以写为:

其中Γ是精度矩阵(逆波动张量)。这描述了内部状态如何沿着自由能梯度流动,以更好地解释感官输入。
四、感知作为推断:预测编码4.1 预测编码理论
预测编码(Predictive Coding)是自由能原理在感知领域的具体实现。Rao和Ballard(1999)以及Friston(2005)提出:
大脑生成关于感官输入的预测
实际输入与预测的差距是预测误差
预测误差更新内部模型,减少未来误差
只有未预期的信息(预测误差)传递到更高层次
这与自由能原理的关系:
预测对应于
,内部模型对外部状态的估计
预测误差对应于
,观测的惊讶
最小化预测误差=最小化自由能的准确性项
4.2 层次生成模型
大脑采用层次生成模型:

每一层预测下一层的输入,预测误差向上传递。这种结构实现了认知穿透——高层先验可以调节低层感知。
4.3 错觉作为推断
亥姆霍兹的错觉在预测编码中得到严格解释:
填充盲点:大脑预测盲点区域的内容,而非"看到"空白
运动后效:适应运动预测后,静止产生相反运动的预测误差
双稳态知觉(如内克尔立方体):两个同样可能的解释竞争,大脑在两个自由能极小值间切换
感知不是"镜子",而是受控的幻觉——在不确定性下的最优推断。
五、行动作为推断:主动采样5.1 从感知到行动
传统观点认为,行动是为了达到外部目标。自由能原理提出,行动是为了使预测成真。
主动推断(Active Inference)认为:
系统不仅预测感官输入,还预测未来的感官输入
行动改变环境,使未来输入符合预测
行动选择最小化预期自由能(Expected Free Energy)
5.2 预期自由能的分解
预期自由能 G(π)对于策略 π 定义为:

或等价地:

目标寻求:使观测符合期望的。如果系统"想要"看到食物,行动使食物出现。
信息寻求:减少未来的不确定性。如果系统不确定食物在哪里,行动探索环境,获取信息。
5.3 探索-利用权衡
预期自由能统一了探索(信息寻求)和利用(目标寻求):
高不确定性时,信息寻求主导,系统探索
低不确定性时,目标寻求主导,系统利用
这与强化学习的探索-利用权衡一致,但提供了基于推断的框架,而非试错学习。
六、学习作为推断:模型更新6.1 参数学习
给定观测序列,系统更新模型参数θ以最小化累积自由能:

这等价于最大似然估计或贝叶斯后验最大化,取决于先验的设定。
6.2 结构学习
更深层的学习是结构学习(Structure Learning)——改变模型的结构,而不仅是参数:
发现新的隐藏变量
改变变量间的连接
选择更合适的模型类别
结构学习对应于科学发现:不是调整现有理论,而是发明新理论。在自由能框架下,这对应于模型选择——比较不同模型的证据 p(o∣model) 。
6.3 精度调控与注意力
精度(Precision)是方差的倒数,度量对预测的信心:。
高精度:预测误差被强烈加权,快速更新模型
低精度:预测误差被忽略,保持当前模型
注意力对应于调控感官输入的精度:
注意某刺激:提高其精度,使其强烈影响感知
忽略某刺激:降低其精度,使其不影响感知
这与贝叶斯最优推断一致:在噪声中选择最可靠的信息源。
七、马尔可夫毯与自证系统7.1 统计边界的定义
马尔可夫毯(Markov Blanket)是一组状态,将内部状态与外部状态条件独立。对于系统状态

,其中:
μ :内部状态(如神经元活动)
s :感觉状态(感官输入)
a :行动状态(运动输出)
ψ :外部状态(环境)
马尔可夫毯由感觉状态 s 和行动状态 a 组成,满足:

7.2 自证与存在
自由能原理的最深刻含义是:推断即存在。生命维持自身,通过持续推断外部世界并据此行动。
系统通过行动使预测成真,创造自证预言(Self-fulfilling Prophecy):
预测环境友好 → 行动友好 → 环境确实友好
预测环境敌对 → 行动敌对 → 环境确实敌对
这种循环因果(Circular Causation)是生命的核心特征:系统不是被动适应环境,而是主动塑造环境。自组织系统(如贝纳尔对流、化学钟)可以视为最小化自由能,维持稳态,抵抗热力学第二定律。
八、与其他理论的关系8.1 与贝叶斯脑
自由能原理是贝叶斯脑(Bayesian Brain)假设的数学实现:
大脑是贝叶斯推断机器
感知是后验概率计算
学习是先验更新
自由能原理提供了变分近似,使贝叶斯推断在计算上可行。
8.2 与预测加工
预测加工(Predictive Processing)是自由能原理的哲学阐释:
大脑是"预测机器"
感知是"受控的幻觉"
行动是"预测的实现"
自由能原理提供了数学基础,预测加工提供了概念框架。
8.3 与强化学习
自由能原理与强化学习的关系:
预期自由能类似于价值函数
主动推断类似于策略优化
关键区别:自由能原理基于推断,强化学习基于试错
自由能原理提供了基于模型的强化学习,而非无模型学习。
8.4 与信息几何
变分自由能的最小化可以重新理解为在统计流形上的自然梯度下降。近似后验 属于指数族分布时,其参数空间具有黎曼几何结构,Fisher信息矩阵作为度量张量:

这揭示了神经动力学本身就是推断动力学——神经元的膜电位演化、突触权重的更新,都是在统计流形上沿测地线移动。
九、本章小结 核心要点
历史渊源:从亥姆霍兹的无意识推断(1867),到统计物理的变分自由能,再到弗里斯特的神经科学革命(2005),我们走过了138年的旅程。
数学基础:变分自由能
,
统一了准确性(预测误差最小化)与复杂性(奥卡姆剃刀)。
四大应用:
感知作为推断:预测编码,层次生成模型,认知穿透
行动作为推断:主动推断,预期自由能,探索-利用统一
学习作为推断:参数学习,结构学习,精度调控
存在作为推断:马尔可夫毯,自证系统,循环因果
遗留问题
自由能原理为理解生命与认知提供了统一框架,但面临一个根本挑战:当模型复杂度趋于无穷时,复杂性项发散。这与量子场论的UV发散同源,也是传统重整化需要截断的原因。
在第23章,我们将看到多尺度复频率链如何通过跨尺度共振实现记忆的涌现,以及为什么N=3是跨尺度记忆的最小层数。
在第24章,我们将提出UV自由方案:通过解析延拓直接获得有限振幅,无需截断,消除层次问题,使自由能原理成为真正UV自由的理论。
哲学意义
自由能原理教会我们,理解世界的方式就是存在的方式。推断不仅是认知的工具,更是生命的本质。从感知到行动,从学习到选择,从自组织到自创生,所有生命过程都可以理解为变分自由能的最小化。
最伟大的智慧不是完美的预测,而是持续的适应;不是静态的知识,而是动态的推断;不是被动的接收,而是主动的生成。在推断中,我们创造了世界,也创造了自我。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-16 02:43
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社