||
摘要:最近几年,深度学习领域出现了不少声称通过最大互信息优化神经网络的方法。目标函数被称之为:互信息估计,神经信息,对比学习负损失函数…等,而它们原来都是笔者30年前提出的语义互信息的一种特例(真值函数同时作为相似函数的特例)。更重要的,笔者30年前就解决了语义信息和香农互信息的匹配关系——通过R(G)函数,它是信息失真函数的推广。本文对相关历史和事实做个简要回顾,并谈谈我的一些想法。
我88年开始研究广义信息论。我也称之为语义信息论,因为我使用真值函数,而真值函数反映语义(形式语义)。但是真值函数也包括隶属函数,相似度函数,分辨率或混淆概率函数,所以语义信息公式也能度量感觉信息和测量信息——比如GPS提供的信息。
我于1990年就在一个不太正规的模糊数学期刊上发表了一篇,名为《香农公式改造和应用》:1990:Shannon equations reform and applications, https://www.listic.univ-smb.fr/production-scientifique/revue-busefal/version-electronique/ebusefal-44/ (目录的11行)其中提供了广义熵和广义互信息公式:
其中Q(yj)是一个元素在一个模糊集合中的概率。这个测度的基本思想是,用模型构造log右边的函数,log左边仍然使用香农的统计概率——频率或其极限。
接着,我的研究受到汪培庄教授的支持,我得以到北师大数学系做他的访问学者(一年),写作了下面文章和专著:
1991:B-模糊集合准布尔代数和广义熵公式,模糊系统和数学,1991,5, 76-80.
1993:《广义信息论》,见鲁晨光的广义信息论文章和专著 (survivor99.com)
接着又发表了:
1994:《广义熵和广义互信息的编码意义》,《通信学报》, 5卷6期,37-44.
我的论文被宜昌的信息论年会列为大会发言,论文集一开始就是我的4篇。但是随后两年,反响不如我预期,我很失望。原因可能是:1)一方面,我人微言轻(散兵游勇,没有阵地);2)另一方面,缺少大家关注的应用。
我于1995年离开了学术界,到一个基金管理部门做投资研究了。除了上面原因,还有下面几个原因:
1) 当时所在单位科研环境差;
2) 因为误解,对新的信息论学会领导有意见(详见:New Page 1 (survivor99.com),于是不再参加任何信息论会议了;
3) 发现信息和熵公式可以用于投资组合优化,想理论联系实际。
第二年,我离开了那个部门下海了,部分原因是为了完成下面专著和文章:
1997:《投资组合的熵理论和信息价值--兼析股票期货等风险控制》,
1999: A generalization of Shannon's information theory", Int. J. of General Systems, 28: (6) 453-490 1999 A Generalization of Shannon's Information Theory (survivor99.com)
2003年我写了两本哲学书——关于色觉和美感:
http://www.survivor99.com/lcg/books/color/index.htm
http://www.survivor99.com/lcg/books/beauty/index.htm
是对我年轻时研究的总结。此后十几年,我很少搞学术研究了。直到2015年,汪培庄教授鼓励我, 我又继续语义信息论和人工智能研究了。不久我就发现语义信息方法和最大似然方法兼容,而且更灵活。几年后,我至少在理论上解决了几个比较难的机器学习问题:多标签学习函数问题,最大互信息分类问题,混合模型收敛证明问题,贝叶斯确证和因果确证问题(涉及乌鸦悖论和辛普森悖论)。发表文章见:
Lu's Recent papers about Semantic Communication and Machine Learning (survivor99.com)
以上文章都是英文发表的。不是我喜欢投英文,而是我投中文很难发表。我投稿过通信学报,信息科学,但是都被拒绝了。我感觉现在发表中文文章比三十年前发表更难了。原因可能是:
1) 好像他们只重视最好应用结果,而不在意理论的巧妙;
2) 我的文章太另类,不好理解,找不到审稿人;
3) 你是谁?我们怎么不知道你?
不过我的研究还是得到一些人的理解和支持。史忠植教授对我的研究比较关注,还邀请我在一个在线国际会议上做了大会发言。
因为机器学习和5G、6G通信的需要,华为的人包括任正非呼吁要解决语义通信及其编码极限问题。现在有不少人研究语义信息理论了。不过,即使其中有人知道我的研究,但是他们写文章从来不提我的研究,更不用说使用我的方法了。这可能有下面原因:
1) 和拒绝发表的原因类似,大多数人只关心应用,而我未能提供比别人好的压缩或识别结果(我单枪匹马,没有条件也没有能力搞深度神经网络;殊不知,清晰的理论和简洁优美的方法更加重要);
2) 不相信我的语义信息论先进;
3) 都希望自己创新,好像是站在巨人肩膀上可以,站在小人物肩上显不出高度。
不过,我已经习惯于被忽视了。
但是,转机来了!
最近,我看了一些使用最大互信息准则优化神经网络的文章,他们都是用模型参数构造“互信息下限”,通过最大化这个下限来最大化香农互信息。这个下限,有人叫神经互信息,有人叫估计互信息,还有人叫预测对比信息。我们后面且称之为估计信息。这些信息测度使用了相似度函数。文章见:
关于神经信息估计:https://arxiv.org/abs/1801.04062
关于估计信息最大化:https://arxiv.org/abs/1808.06670
关于预测对比信息:https://proceedings.mlr.press/v119/chen20j/chen20j.pdf
关于负损失函数:https://arxiv.org/abs/1911.05722v3
作者中有图灵奖获得者Yoshua Bengio和Geoffrey Hinton,还有机器学习高手何凯明。原来,估计信息就是我三十年前提出的语义信息的一种形式,虽然他们可能不知道我的研究。我的语义信息量图解如下图:
对上面信息函数I(xi;θj)求平均,就得到语义互信息。
真值函数也就是隶属函数。真值函数换成相似函数,语义信息就变成估计信息。我们可以认为每个模糊集合存在一个典型或理念(隶属度为1),其他元素的隶属度就是它和典型的相似度。这样,真值函数也可以理解为相似函数。我也早就用使用相似函数(又叫分辨率函数)优化图像压缩,得到一系列有意义结论(见第五章 通信优化 (survivor99.com))。
估计信息公式是下面没有负号的部分,有负号就是损失函数:
这右边和我度量GPS信息用的语义信息公式
类似。估计信息用到的公式有:
我用到的类似公式是:
不同的是,他们一般直接用样本求平均,我用样本分布求平均(下标含义不同)。
在我看来,估计信息就是主观理解的或实际接收的信息,它其实是比香农信息更一般的信息,香农信息是它的特例(预测和实际完全符合时)。但是深度学习研究者把它理解为香农信息的估计,是一个权宜之计的替代者,而不是目的。我以为,不是香农信息最大化而是估计信息最大化才是目的。说通过最大化估计信息最大化香农互信息还有这样的问题:
1) 一般情况下,负指数函数并不能保证估计信息逼近香农信息;而用真值函数可以(当真值函数正比于转移概率函数时,两种信息量相等);
2) 对于有监督学习,香农互信息已经由样本确定,是不能最大化的,最大化的是估计信息,不是香农信息。说通过最大化下限最大化香农互信息,对于有监督学习是不适合的;
3)对于无监督学习,P(x,y)和P(y)也是需要学习的,互信息上限就是P(x)。 我不并不需要达到这个上限。所以,说互信息最大化也是有问题的。除了通过优化模型参数最大化估计信息(上述作者所做的),还需要在给定模型参数时,通过优化P(y)增大两种信息或信息效率(信息效率=估计信息/香农信息)。有时候香农互信息是需要减少的,比如在求解混合模型时(使R=G)。我们需要在最大化互信息(或估计信息)和最大化信息效率之间权衡。我提供的R(G)函数就在理论上解决了上述问题。该函数图解如下:
参看:http://www.survivor99.com/lcg/CM/Gtheory/index.html
4) 使用了估计信息准则,他们还要用分类正确率评估分类器,这是不对的。试问:我们能用正确率评价地震预报水平吗?(不过,我们可以使用有不同先验分布的样本,看看分类正确率是否比较稳定。和正确率准则相比,最大互信息分类是比较保守的分类,它其实是使用对数相对正确率准则)。
我对深度学习的作者们非常佩服,特别是在看到Hinton的AutoEncoder时。不过要想得到可解释的深度学习方法,估计信息公式是不够的,语义信息论是少不了的。我的P-T概率框架和语义信息论应该是一个很好的基础。绕是绕不过去的!我的弱项是,缺少深度学习经验和工具。我的强项是:把简单模型中基础性的东西搞清楚。互补将能提高双方。
都说鼓励创新,敢于坐冷板凳。可是弄不好就是一辈子白忙!我的色觉机制模型也有类似糟遇,详见:https://blog.sciencenet.cn/blog-2056-1160412.html
我算运气好,辛亏有汪培庄、史忠植等教授的支持和鼓励,幸亏我老了还努力学英文写作,学用Python编程,从而发表了一些英文文章,引起一些人关注。要是只投稿国内期刊,恐怕到现在还是白忙。
我以为:国内信息论和人工智能期刊少了;英文会议多了,中文会议少了;名人发表多了,小人物发表少了;应用发表多了,理论创新发表少了;圈内人发表多了,圈外人发表少了;对文章的正确性要求多了,对文章的信息(即语义信息或Popper的信息)要求少了…。现在期刊动不动就要求The state of the Art, 于是作者们就比拼分类比正确率,其实正确率和实例先验概率分布有关(参看我分析奥密克戎无症状问题文章:https://blog.sciencenet.cn/home.php?mod=space&uid=2056&do=blog&id=1371198 ),一个分类器对一组样本合适,对另一组样本可能不合适。效率和普适性是重要的。
为了防止研究成果被埋没,网上文库是很好解决办法。我就有个ArXiv账户(Chenguang Lu's articles on arXiv ,就是不知道文章有没有人看)。我也高兴看到中国自己的ChinaXiv.org, 不过它要求用edu或ac信箱注册。我没有,所以一直注册不了。我只好自己搞了个中文网站。
有人鼓励我找人鉴定评审我的研究成果,我以为不值得花大力气。要干的事情很多,我不能把时间花在争取别人承认上。先把发现写出来,是是非非让后人评说。看到别人步我后尘,取得很好结果,就更相信自己的发现是有价值的。如朱松纯所说,发现本身就是奖赏(见科学网—朱松纯谈科研和钓鱼)。
希望勇于创新的年轻人的遭遇比我好!
欢迎关注我的更多另类研究:http://survivor99.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 00:04
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社