鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣:色觉, 哲学, 美学, 进化论,广义信息,投资组合

博文

香农互信息和似然度的匹配函数R(G)—解决最大互信息和最大似然度

已有 702 次阅读 2017-4-28 04:35 |个人分类:信息的数学和哲学|系统分类:科研笔记|关键词:香农互信息 最大似然度 迭代 EM算法 语义信道

香农互信息和似然度的匹配函数R(G)—解决最大互信息和最大似然度的钥匙


1994年,通信学报发表了我的《广义熵和广义互信息的编码意义》,

http://xuewen.cnki.net/CJFD-TXXB406.005.html

内容大概是:

http://survivor99.com/lcg/books/GIT/GY/ch5.htm#ch56  


其中介绍了R(G)函数,它是信息率失真函数R(D)的推广, G是语义或以互信息的下限。当时只是说明如何根据视觉分辨率压缩像素数据。那时候,我还不清楚似然度方法——现在想来是坏事也是好事。

最近我发现,原来我就是用标准似然度(normalized likelihood)定义语义信息或广义信息的。不同的是,我的然函数来自真值函数,或模糊集合隶属函数。好事是,我没有似然度方法约束,用真值函数产生似然函数更加兼容贝叶斯推理,使得预测模型适合先验概率可变场合。坏事是,新的语义信息公式和R(G)函数本来可以解决似然度方法难题的(先验难题,和平均最大难题),现在推迟了20多年。

给定香农信道,求互信息简单,求最大似然度也简单。但是,不限制香农信道,比如在检验和估计中,以及混合模型中,求所有可能香农信道的最大互信息是困难的。求最大似然度类似,都要寻找最优香农信道。但是, 不固定香农信道就不能求互信息。而固定了又如何优化信道?

很多文章讲最大似然度,但是含义不同,一种对应Kullback-Leibler距离(divergence)的,最大似然估计就是最小Kullback-Leibler距离估计。另一种对应不限定香农信道P(Y|X)时的最大香农互信息,就是对于可能的不同假设Y=y1, y2, …, yn和样本分布P(X|yj), j=1,2,…,n之间的最大似然度(同样需要求最优香农信道P*(Y|X)),等价于最大平均对数似然度——这个似然度就是我标题讲的似然度,其最大值是很难求解的。这样的最大似然估计就是最小香农互信息估计。

各位注意到没有?似然度大,信息还少,这是经典信息论的缺陷!如果用语义信息准则,似然度大,标准似然度也大,语义信息就大。

流行的解决最大互信息的方法是最小最大法。解决平均最大似然度的方法除了牛顿迭代法,还有EM算法——通常用于混合模型(机器学习用)(参看中文http://www.cnblogs.com/mindpuzzle/archive/2013/04/05/2998746.html英文http://cs229.stanford.edu/notes/cs229-notes8.pdf)。这些方法都是实用方法,除了牛顿迭代法,理论性不强,收敛证明也不清楚。

现在我发现,可以采用语义信道和香农信道交替相互匹配——迭代,实现最大互信息和最大似然度。具体算法和收敛证明都可以通过分析R(G)函数得到。


希望有人感兴趣。


作者更多信息论文章见:http://survivor99.com/lcg/books/GIT/





http://blog.sciencenet.cn/blog-2056-1051625.html

上一篇:学术界同行审议的“无理棋”问题
下一篇:冒名奇观《信息论在经济中的应用》-胡志远
收藏 分享 举报

1 icgwang

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|小黑屋|科学网 ( 京ICP备14006957 )

GMT+8, 2017-9-20 08:14

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社

返回顶部