博文

5.8.6、AI的五岳学派之五：统计学（贝叶斯学派）

已有 1524 次阅读 2026-3-7 11:41 |系统分类:观点评述

与“频率学派”将模型参数看成“未知的常量”不同，“贝叶斯学派”则将模型参数看成“未知的变量，其本身有一个分布”，因此通常先假定参数服从一个先验分布，再用观测到的数据来修正参数的后验分布。这种不断迭代修正的过程，让科学的“可证伪性”也可看作是贝叶斯方法论。

贝叶斯学派认为所有概率都是主观的，认为不存在绝对客观的概率。而频率学派则认为模型参数是客观的，将先验分布视为一种偏见，认为它难以获取且过于主观。

点击+号关注本账号，可获得更多精彩内容。

与频率学派不同，贝叶斯学派（Bayesian）将模型参数视为随机变量，通过引入先验分布来量化参数的不确定性。具体地，贝叶斯学派将模型参数视为未知的变量，其本身有一个分布，因此通常先假定参数服从一个先验分布（选择不同的先验分布可能会影响结果），再用观测到的数据来计算参数的后验分布。贝叶斯学派以贝叶斯定理（如下图所示）为核心，认为概率是对不确定性的主观度量，即对某个命题或假设的信念（Belief）程度。贝叶斯学派的方法主要有概率图模型、朴素贝叶斯分类器、贝叶斯网络、马尔可夫链蒙特卡洛（MCMC）方法等，应用于垃圾邮件过滤（基于词频先验）、实时风险预测系统（如金融欺诈检测）、推荐系统等场景。贝叶斯学派认为，智能行为不仅体现在对数据的拟合上，更体现在对不确定性的建模与推理上。

贝叶斯学派将概率视为信念程度，利用先验分布（基于已有知识或经验）和新观测数据（似然函数）来对未知参数的信念进行更新（后验分布）：认为学习是一个动态的过程，随着新数据的不断加入，先验概率会更新为后验概率，以此来进行预测和决策（详细参考章节“13.9.1 先验概率、似然函数、后验概率、贝叶斯公式”）。贝叶斯学派的优势在于其强大的不确定性建模能力，能够处理小样本、高维数据与缺失数据等问题，尤其适用于需要动态更新知识的场景。特别是，能够生成关于不确定性的定量描述，这对于决策支持系统尤为重要。然而，它也面临着计算复杂度高、先验分布选择困难等挑战。为了克服这些局限，研究者们不断探索新的近似推断方法（如变分推断、期望传播等）与先验分布设计策略，使得贝叶斯方法在深度学习（如贝叶斯神经网络）和医疗诊断中的实用性显著提升。

贝叶斯学派将概率的方法引入人工智能，模拟基于概率的衡量进行推断决策。与“频率学派”将模型参数看成“未知的常量”不同，“贝叶斯学派”则将模型参数看成“未知的变量，其本身有一个分布”，因此通常先假定参数服从一个先验分布，再用观测到的数据来计算参数的后验分布，并使用最大化后验概率（MAP）的方法求解参数θ（通过贝叶斯公式进行展开）。

贝叶斯学派认为一切概率都是主观的（需要主观确定参数的先验分布，即θ），因此将参数看成是一个带有概率分布的变量，不存在客观存在的概率。

下面介绍一下贝叶斯学派和频率学派的区别（更多请参见章节“13.9.4 贝叶斯学派与频率学派之争论”）。贝叶斯学派认为所有概率都是主观的，因此需要人为设定参数的先验分布。他们把参数看作是具有概率分布的变量，认为不存在绝对客观的概率。而频率学派则认为模型参数是客观的，将先验分布视为一种偏见，只相信自己观察到的客观数据。因此，频率学派经常批评贝叶斯学派的先验分布，认为它难以获取且过于主观。

贝叶斯学派则认为，先验分布来源于个人以往的经验，本身具有重要意义。他们认为先验分布准确与否并没有那么重要，因为我们可以先对先验分布进行假设，当现实情况与先验知识不一致时——比如根据新收集到的数据，所估计出来的后验概率与先验概率差距过大，就可以对当前的信念（参数先验）产生怀疑，并据此修正先验知识。这种不断迭代修正的过程，让科学的“可证伪性”也可以看作是贝叶斯方法论的一种体现。

更详细内容，请见本书的完整版。如果你有任何感想，请在评论区留言，一起讨论。

“AI哲学一吴怀宇”（中国科学院博士、北大博士后）作者主页：www.OpenDAI.org；邮件：huaiyuwu@sina.com

视频号/公众号：AI哲学一吴怀宇中国科学院（人工智能哲学）

转载本文请联系原作者获取授权，同时请注明本文来自吴怀宇科学网博客。
链接地址：https://blog.sciencenet.cn/blog-4099-1524807.html

上一篇：5.8.5、AI的五岳学派之四：统计学（频率学派）
下一篇：「AI哲学」：AI全新时代下，人类如何“为自身立命”与“为AI立心”

欢迎参加科学网十佳博文评选活动！

主办单位：