|||
我在一个群里说, 人工智能碎片化理论多,不构成一个整体, 主要是因为缺少像物理学中“能量”那样”一个贯穿很多公式的概念。我以为人工智能中要有这样的概念, 应该是信息。 信息和似然度(现在知道log似然度就是负的交叉熵)应该可以充当这个概念, 用做优化准则。 可是现在不同准则太多。影响信息准则被广泛接受的最大障碍是贝叶斯主义推理(用最大后验概率准则), 还有误差准则, 以及风头正健的正则化准则。
正则化准则就是在误差准则后面加上正则化项, 我的理解是:它反映模型标准差越小越好,就相当于GPS的精确度。这意思是你捕鱼的鱼罩子盖住鱼了,但是覆盖面积越小越好。盖住整个池塘,就等于没盖住。用Popper理论解释就是逻辑概率越小越好,因为检验更严厉, 如果经得起检验, 信息就更多。 永真句不提供信息。
我以为正则化准则和信息准则是兼容的。
看到这篇文章:
从贝叶斯角度深入理解正则化 http://blog.csdn.net/zhuxiaodong030/article/details/54408786
初看觉得很有新意。但是仔细思考, 不对啊, 要用样本优化的是似然函数中的参数啊, 怎么能优化先验参数呢?先验参数和样本无关啊!
我的一篇文章讲到这个问题, 摘录如下:
把真值函数或隶属函数带进贝叶斯公式:
图4 语义信息量图解. 偏差越大,信息越少;逻辑概率越小,信息量越大;错误预测提供负的信息.
这个公式就能反映Popper的思想[23]:(先验)逻辑概率越小,并能经得起检验(后验逻辑概率越大) ,信息量就越大; 永真句在逻辑上不能被证伪,因而不含有信息.
假设yj="X 大约是xj"的真值函数是T(θj|X)=exp[-(X-xj)**2/(2d**2)] (没有系数的高斯分布, 最大值是1)。把它代入式(3.8), 就得到
其中熵都是交叉熵。容易证明,在语义贝叶斯预测和样本分布一致时, 即P(xi|θj)=P(xi|yj) (对于所有i, j)时,上述语义互信息达到其上限,等于Shannon 互信息. 从式(3.9)和(3.11)可见, 语义互信息准则和流行的误差加正则化准则是类似的. H(θ|X)就是误差项,H(θ)就是正则化项. I(X; θ)就是负的损失函数.
这个正则化项和流行的正则化项可能有些区别,但是这个在理论上更严格, 因为它是构成语义信息或似然度的部件之一。主要差别是, 影响先验熵H(θ)的是:1)模型覆盖范围大小,比如高斯分布的标准差小就好, 预测精度就高; 2)覆盖的地方P(X)大小, 小就表示出乎预料, 逻辑概率就小, 信息就多。所以从信息论角度看, 并不是任何一个参数小就好, 要有所选择。
更多讨论见:http://survivor99.com/lcg/books/GIT/
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-28 22:50
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社