|

与“频率学派”将模型参数看成“未知的常量”不同,“贝叶斯学派”则将模型参数看成“未知的变量,其本身有一个分布”,因此通常先假定参数服从一个先验分布,再用观测到的数据来修正参数的后验分布。这种不断迭代修正的过程,让科学的“可证伪性”也可看作是贝叶斯方法论。
贝叶斯学派认为所有概率都是主观的,认为不存在绝对客观的概率。而频率学派则认为模型参数是客观的,将先验分布视为一种偏见,认为它难以获取且过于主观。
点击+号关注本账号,可获得更多精彩内容。
与频率学派不同,贝叶斯学派(Bayesian)将模型参数视为随机变量,通过引入先验分布来量化参数的不确定性。具体地,贝叶斯学派将模型参数视为未知的变量,其本身有一个分布,因此通常先假定参数服从一个先验分布(选择不同的先验分布可能会影响结果),再用观测到的数据来计算参数的后验分布。贝叶斯学派以贝叶斯定理(如下图所示)为核心,认为概率是对不确定性的主观度量,即对某个命题或假设的信念(Belief)程度。贝叶斯学派的方法主要有概率图模型、朴素贝叶斯分类器、贝叶斯网络、马尔可夫链蒙特卡洛(MCMC)方法等,应用于垃圾邮件过滤(基于词频先验)、实时风险预测系统(如金融欺诈检测)、推荐系统等场景。贝叶斯学派认为,智能行为不仅体现在对数据的拟合上,更体现在对不确定性的建模与推理上。
贝叶斯学派将概率视为信念程度,利用先验分布(基于已有知识或经验)和新观测数据(似然函数)来对未知参数的信念进行更新(后验分布):认为学习是一个动态的过程,随着新数据的不断加入,先验概率会更新为后验概率,以此来进行预测和决策(详细参考章节“13.9.1 先验概率、似然函数、后验概率、贝叶斯公式”)。贝叶斯学派的优势在于其强大的不确定性建模能力,能够处理小样本、高维数据与缺失数据等问题,尤其适用于需要动态更新知识的场景。特别是,能够生成关于不确定性的定量描述,这对于决策支持系统尤为重要。然而,它也面临着计算复杂度高、先验分布选择困难等挑战。为了克服这些局限,研究者们不断探索新的近似推断方法(如变分推断、期望传播等)与先验分布设计策略,使得贝叶斯方法在深度学习(如贝叶斯神经网络)和医疗诊断中的实用性显著提升。
贝叶斯学派将概率的方法引入人工智能,模拟基于概率的衡量进行推断决策。与“频率学派”将模型参数看成“未知的常量”不同,“贝叶斯学派”则将模型参数看成“未知的变量,其本身有一个分布”,因此通常先假定参数服从一个先验分布,再用观测到的数据来计算参数的后验分布,并使用最大化后验概率(MAP)的方法求解参数θ(通过贝叶斯公式进行展开)。
贝叶斯学派认为一切概率都是主观的(需要主观确定参数的先验分布,即θ),因此将参数看成是一个带有概率分布的变量,不存在客观存在的概率。
下面介绍一下贝叶斯学派和频率学派的区别(更多请参见章节“13.9.4 贝叶斯学派与频率学派之争论”)。贝叶斯学派认为所有概率都是主观的,因此需要人为设定参数的先验分布。他们把参数看作是具有概率分布的变量,认为不存在绝对客观的概率。而频率学派则认为模型参数是客观的,将先验分布视为一种偏见,只相信自己观察到的客观数据。因此,频率学派经常批评贝叶斯学派的先验分布,认为它难以获取且过于主观。
贝叶斯学派则认为,先验分布来源于个人以往的经验,本身具有重要意义。他们认为先验分布准确与否并没有那么重要,因为我们可以先对先验分布进行假设,当现实情况与先验知识不一致时——比如根据新收集到的数据,所估计出来的后验概率与先验概率差距过大,就可以对当前的信念(参数先验)产生怀疑,并据此修正先验知识。这种不断迭代修正的过程,让科学的“可证伪性”也可以看作是贝叶斯方法论的一种体现。
更详细内容,请见本书的完整版。如果你有任何感想,请在评论区留言,一起讨论。
“AI哲学一吴怀宇”(中国科学院博士、北大博士后)作者主页:www.OpenDAI.org;邮件:huaiyuwu@sina.com
视频号/公众号:AI哲学一吴怀宇中国科学院(人工智能哲学)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-7 20:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社