博文

深度学习大牛们用我30年前提出的语义信息测度了

已有 3429 次阅读 2023-1-20 14:02 |个人分类:信息的数学和哲学|系统分类:论文交流

摘要：最近几年，深度学习领域出现了不少声称通过最大互信息优化神经网络的方法。目标函数被称之为：互信息估计，神经信息，对比学习负损失函数…等，而它们原来都是笔者30年前提出的语义互信息的一种特例（真值函数同时作为相似函数的特例）。更重要的，笔者30年前就解决了语义信息和香农互信息的匹配关系——通过R(G)函数，它是信息失真函数的推广。本文对相关历史和事实做个简要回顾，并谈谈我的一些想法。

我88年开始研究广义信息论。我也称之为语义信息论，因为我使用真值函数，而真值函数反映语义（形式语义）。但是真值函数也包括隶属函数，相似度函数，分辨率或混淆概率函数，所以语义信息公式也能度量感觉信息和测量信息——比如GPS提供的信息。

我于1990年就在一个不太正规的模糊数学期刊上发表了一篇，名为《香农公式改造和应用》：1990：Shannon equations reform and applications, https://www.listic.univ-smb.fr/production-scientifique/revue-busefal/version-electronique/ebusefal-44/ （目录的11行）其中提供了广义熵和广义互信息公式：

其中Q(yj)是一个元素在一个模糊集合中的概率。这个测度的基本思想是，用模型构造log右边的函数，log左边仍然使用香农的统计概率——频率或其极限。

接着，我的研究受到汪培庄教授的支持，我得以到北师大数学系做他的访问学者（一年），写作了下面文章和专著:

1991：B-模糊集合准布尔代数和广义熵公式，模糊系统和数学，1991,5， 76-80.

1993：《广义信息论》，见鲁晨光的广义信息论文章和专著 (survivor99.com)

接着又发表了：

1994:《广义熵和广义互信息的编码意义》,《通信学报》, 5卷6期,37-44.

我的论文被宜昌的信息论年会列为大会发言，论文集一开始就是我的4篇。但是随后两年，反响不如我预期，我很失望。原因可能是：1）一方面，我人微言轻（散兵游勇，没有阵地）；2）另一方面，缺少大家关注的应用。

我于1995年离开了学术界，到一个基金管理部门做投资研究了。除了上面原因，还有下面几个原因：

1）当时所在单位科研环境差；

2）因为误解，对新的信息论学会领导有意见（详见：New Page 1 (survivor99.com)，于是不再参加任何信息论会议了；

3）发现信息和熵公式可以用于投资组合优化，想理论联系实际。

第二年，我离开了那个部门下海了，部分原因是为了完成下面专著和文章：

1997：《投资组合的熵理论和信息价值--兼析股票期货等风险控制》，

1999: A generalization of Shannon's information theory", Int. J. of General Systems, 28: (6) 453-490 1999 A Generalization of Shannon's Information Theory (survivor99.com)

2003年我写了两本哲学书——关于色觉和美感：

http://www.survivor99.com/lcg/books/color/index.htm

http://www.survivor99.com/lcg/books/beauty/index.htm

是对我年轻时研究的总结。此后十几年，我很少搞学术研究了。直到2015年，汪培庄教授鼓励我, 我又继续语义信息论和人工智能研究了。不久我就发现语义信息方法和最大似然方法兼容，而且更灵活。几年后，我至少在理论上解决了几个比较难的机器学习问题：多标签学习函数问题，最大互信息分类问题，混合模型收敛证明问题，贝叶斯确证和因果确证问题（涉及乌鸦悖论和辛普森悖论）。发表文章见：

Lu's Recent papers about Semantic Communication and Machine Learning (survivor99.com)

以上文章都是英文发表的。不是我喜欢投英文，而是我投中文很难发表。我投稿过通信学报，信息科学，但是都被拒绝了。我感觉现在发表中文文章比三十年前发表更难了。原因可能是：

1）好像他们只重视最好应用结果，而不在意理论的巧妙；

2）我的文章太另类，不好理解，找不到审稿人；

3）你是谁？我们怎么不知道你？

不过我的研究还是得到一些人的理解和支持。史忠植教授对我的研究比较关注，还邀请我在一个在线国际会议上做了大会发言。

因为机器学习和5G、6G通信的需要，华为的人包括任正非呼吁要解决语义通信及其编码极限问题。现在有不少人研究语义信息理论了。不过，即使其中有人知道我的研究，但是他们写文章从来不提我的研究，更不用说使用我的方法了。这可能有下面原因：

1）和拒绝发表的原因类似，大多数人只关心应用，而我未能提供比别人好的压缩或识别结果（我单枪匹马，没有条件也没有能力搞深度神经网络；殊不知，清晰的理论和简洁优美的方法更加重要）；

2）不相信我的语义信息论先进；

3）都希望自己创新，好像是站在巨人肩膀上可以，站在小人物肩上显不出高度。

不过，我已经习惯于被忽视了。

但是，转机来了！

最近，我看了一些使用最大互信息准则优化神经网络的文章，他们都是用模型参数构造“互信息下限”，通过最大化这个下限来最大化香农互信息。这个下限，有人叫神经互信息，有人叫估计互信息，还有人叫预测对比信息。我们后面且称之为估计信息。这些信息测度使用了相似度函数。文章见：

关于神经信息估计：https://arxiv.org/abs/1801.04062

关于估计信息最大化：https://arxiv.org/abs/1808.06670

关于预测对比信息：https://proceedings.mlr.press/v119/chen20j/chen20j.pdf

关于负损失函数：https://arxiv.org/abs/1911.05722v3

作者中有图灵奖获得者Yoshua Bengio和Geoffrey Hinton，还有机器学习高手何凯明。原来，估计信息就是我三十年前提出的语义信息的一种形式，虽然他们可能不知道我的研究。我的语义信息量图解如下图：

对上面信息函数I(xi;θj)求平均，就得到语义互信息。

真值函数也就是隶属函数。真值函数换成相似函数，语义信息就变成估计信息。我们可以认为每个模糊集合存在一个典型或理念(隶属度为1)，其他元素的隶属度就是它和典型的相似度。这样，真值函数也可以理解为相似函数。我也早就用使用相似函数(又叫分辨率函数)优化图像压缩，得到一系列有意义结论（见第五章通信优化 (survivor99.com)）。

估计信息公式是下面没有负号的部分，有负号就是损失函数：

这右边和我度量GPS信息用的语义信息公式

类似。估计信息用到的公式有:

我用到的类似公式是：

不同的是，他们一般直接用样本求平均，我用样本分布求平均（下标含义不同）。

在我看来，估计信息就是主观理解的或实际接收的信息，它其实是比香农信息更一般的信息，香农信息是它的特例（预测和实际完全符合时）。但是深度学习研究者把它理解为香农信息的估计，是一个权宜之计的替代者，而不是目的。我以为，不是香农信息最大化而是估计信息最大化才是目的。说通过最大化估计信息最大化香农互信息还有这样的问题：

1）一般情况下，负指数函数并不能保证估计信息逼近香农信息；而用真值函数可以（当真值函数正比于转移概率函数时，两种信息量相等）；

2）对于有监督学习，香农互信息已经由样本确定，是不能最大化的，最大化的是估计信息，不是香农信息。说通过最大化下限最大化香农互信息，对于有监督学习是不适合的；

3）对于无监督学习，P(x,y)和P(y)也是需要学习的，互信息上限就是P(x)。我不并不需要达到这个上限。所以，说互信息最大化也是有问题的。除了通过优化模型参数最大化估计信息（上述作者所做的），还需要在给定模型参数时，通过优化P(y)增大两种信息或信息效率（信息效率=估计信息/香农信息）。有时候香农互信息是需要减少的，比如在求解混合模型时（使R=G）。我们需要在最大化互信息（或估计信息）和最大化信息效率之间权衡。我提供的R(G)函数就在理论上解决了上述问题。该函数图解如下：

参看：http://www.survivor99.com/lcg/CM/Gtheory/index.html

4）使用了估计信息准则，他们还要用分类正确率评估分类器，这是不对的。试问：我们能用正确率评价地震预报水平吗？（不过，我们可以使用有不同先验分布的样本，看看分类正确率是否比较稳定。和正确率准则相比，最大互信息分类是比较保守的分类，它其实是使用对数相对正确率准则）。

我对深度学习的作者们非常佩服，特别是在看到Hinton的AutoEncoder时。不过要想得到可解释的深度学习方法，估计信息公式是不够的，语义信息论是少不了的。我的P-T概率框架和语义信息论应该是一个很好的基础。绕是绕不过去的！我的弱项是，缺少深度学习经验和工具。我的强项是：把简单模型中基础性的东西搞清楚。互补将能提高双方。

都说鼓励创新，敢于坐冷板凳。可是弄不好就是一辈子白忙！我的色觉机制模型也有类似糟遇，详见：https://blog.sciencenet.cn/blog-2056-1160412.html

我算运气好，辛亏有汪培庄、史忠植等教授的支持和鼓励，幸亏我老了还努力学英文写作，学用Python编程，从而发表了一些英文文章，引起一些人关注。要是只投稿国内期刊，恐怕到现在还是白忙。

我以为：国内信息论和人工智能期刊少了；英文会议多了，中文会议少了；名人发表多了，小人物发表少了；应用发表多了，理论创新发表少了；圈内人发表多了，圈外人发表少了；对文章的正确性要求多了，对文章的信息（即语义信息或Popper的信息）要求少了…。现在期刊动不动就要求The state of the Art, 于是作者们就比拼分类比正确率，其实正确率和实例先验概率分布有关（参看我分析奥密克戎无症状问题文章：https://blog.sciencenet.cn/home.php?mod=space&uid=2056&do=blog&id=1371198 ），一个分类器对一组样本合适，对另一组样本可能不合适。效率和普适性是重要的。

为了防止研究成果被埋没，网上文库是很好解决办法。我就有个ArXiv账户（Chenguang Lu's articles on arXiv ,就是不知道文章有没有人看）。我也高兴看到中国自己的ChinaXiv.org, 不过它要求用edu或ac信箱注册。我没有，所以一直注册不了。我只好自己搞了个中文网站。

有人鼓励我找人鉴定评审我的研究成果，我以为不值得花大力气。要干的事情很多，我不能把时间花在争取别人承认上。先把发现写出来，是是非非让后人评说。看到别人步我后尘，取得很好结果，就更相信自己的发现是有价值的。如朱松纯所说，发现本身就是奖赏（见科学网—朱松纯谈科研和钓鱼）。

希望勇于创新的年轻人的遭遇比我好！

欢迎关注我的更多另类研究：http://survivor99.com

转载本文请联系原作者获取授权，同时请注明本文来自鲁晨光科学网博客。
链接地址：https://blog.sciencenet.cn/blog-2056-1372775.html

上一篇：新冠无症状比例问题——比较机器学习西瓜分类
下一篇：感谢几位曾想帮我的人——虽然没有成功

收藏 IP: 99.199.191.*| 热度|

当前推荐数：1 推荐人：张学文

该博文允许注册用户评论请点击登录评论 (1 个评论)

数据加载中...

返回顶部

鲁晨光

扫一扫，分享此博文

鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣：色觉，哲学，美学，进化论，广义信息，投资组合

博文

深度学习大牛们用我30年前提出的语义信息测度了

当前推荐数：1 推荐人：张学文

该博文允许注册用户评论请点击登录评论 (1 个评论)

鲁晨光

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣：色觉， 哲学， 美学， 进化论，广义信息，投资组合

博文

深度学习大牛们用我30年前提出的语义信息测度了

当前推荐数：1 推荐人： 张学文

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

鲁晨光

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣：色觉，哲学，美学，进化论，广义信息，投资组合

当前推荐数：1 推荐人：张学文

该博文允许注册用户评论请点击登录评论 (1 个评论)