鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣:色觉, 哲学, 美学, 进化论,广义信息,投资组合

博文

从语义信息论看正则化准则

已有 3605 次阅读 2018-3-2 11:05 |个人分类:信息的数学和哲学|系统分类:科研笔记| 机器学习, 人工智能, 语义信息

我在一个群里说, 人工智能碎片化理论多,不构成一个整体, 主要是因为缺少像物理学中“能量”那样”一个贯穿很多公式的概念。我以为人工智能中要有这样的概念, 应该是信息。 信息和似然度(现在知道log似然度就是负的交叉熵)应该可以充当这个概念, 用做优化准则。 可是现在不同准则太多。影响信息准则被广泛接受的最大障碍是贝叶斯主义推理(用最大后验概率准则), 还有误差准则, 以及风头正健的正则化准则。


正则化准则就是在误差准则后面加上正则化项, 我的理解是:它反映模型标准差越小越好,就相当于GPS的精确度。这意思是你捕鱼的鱼罩子盖住鱼了,但是覆盖面积越小越好。盖住整个池塘,就等于没盖住。用Popper理论解释就是逻辑概率越小越好,因为检验更严厉, 如果经得起检验, 信息就更多。 永真句不提供信息。

我以为正则化准则和信息准则是兼容的。


看到这篇文章:   

从贝叶斯角度深入理解正则化 http://blog.csdn.net/zhuxiaodong030/article/details/54408786

初看觉得很有新意。但是仔细思考, 不对啊, 要用样本优化的是似然函数中的参数啊, 怎么能优化先验参数呢?先验参数和样本无关啊!

我的一篇文章讲到这个问题, 摘录如下:

 把真值函数或隶属函数带进贝叶斯公式:

blob.png

图4 语义信息量图解. 偏差越大,信息越少;逻辑概率越小,信息量越大;错误预测提供负的信息.

这个公式就能反映Popper的思想[23](先验)逻辑概率越小,并能经得起检验(后验逻辑概率越大) ,信息量就越大; 永真句在逻辑上不能被证伪,因而不含有信息.

   假设yj="X 大约是xj"的真值函数是T(θj|X)=exp[-(X-xj)**2/(2d**2)] (没有系数的高斯分布, 最大值是1)。把它代入式(3.8), 就得到

blob.png

其中熵都是交叉熵。容易证明,在语义贝叶斯预测和样本分布一致时, P(xi|θj)=P(xi|yj) (对于所有i, j)时,上述语义互信息达到其上限,等于Shannon 互信息. 从式(3.9)(3.11)可见, 语义互信息准则和流行的误差加正则化准则是类似的. H(θ|X)就是误差项,H(θ)就是正则化项. I(X; θ)就是负的损失函数.

这个正则化项和流行的正则化项可能有些区别,但是这个在理论上更严格, 因为它是构成语义信息或似然度的部件之一。主要差别是, 影响先验熵H(θ)的是:1)模型覆盖范围大小,比如高斯分布的标准差小就好, 预测精度就高; 2)覆盖的地方P(X)大小, 小就表示出乎预料, 逻辑概率就小, 信息就多。所以从信息论角度看, 并不是任何一个参数小就好, 要有所选择。


更多讨论见:http://survivor99.com/lcg/books/GIT/




https://blog.sciencenet.cn/blog-2056-1101911.html

上一篇:交叉熵是谁最早提出和应用的?
下一篇:通过实指定义词汇澄清塞尔中文屋悖论
收藏 IP: 99.199.188.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 13:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部