|||
交叉熵(cross-entropy,或CE)最简单形式就是H=-∑P(xi)logP(xi|θ). log后面是似然度或预测的概率。下面是wikipedia介绍:
https://en.wikipedia.org/wiki/Cross_entropy
我在一个群里说,人工智能需要一个像物理学中“能量”那样的贯穿很多公式的概念,这个概念应该是信息。我用语义信息方法优化假设检验和统计学习,语义互信息是用“I=平均log(normalized似然度)”定义的,或者说是用交叉熵定义的。其中似然度是通过隶属函数产生的。
有专家说:“对是对的, 不过不够; AI前言论文中一直都在用, 要往前走,不要停留在N年前的思路上, 那样就落伍了, 这样很危险,... 前沿论文中似然度和交叉熵已经用的很多了,别自恋...”。
前面几句说得很好,但是后面几句看了不是滋味。好像我只不过学了西方学者,或者是发现“新大陆”。我要说, 我不但不是完全学了别人的,而且我提出和应用交叉熵实际上在西方之前。
西方交叉熵研究历史介绍(可以下载全文):https://research.utwente.nl/en/publications/a-tutorial-on-the-cross-entropy-method
其中有一段:
The CE method was motivated by an adaptive algorithm for estimating probabilities of rare events in complex stochastic networks (Rubinstein, 1997), which involves variance minimization. It was soon realized (Rubinstein, 1999, 2001) that a simple cross-entropy modification of Rubinstein (1997) could be used not only for estimating probabilities of rare events but for solving difficult COPs as well. This is done by translating the “deterministic” optimization problem into a related “stochastic” optimization problem and then using rare event simulation techniques similar to Rubinstein (1997). Several recent applications demonstrate the power of the CE method (Rubinstein, 1999) as a generic and practical tool for solving NP-hard problems.
可见,西方交叉熵最早是Rubinstein 于1997年提出的。Rubinstein简介:
https://en.wikipedia.org/wiki/Reuven_Rubinstein
但是我最早提出用交叉熵(我当时的用词是“广义熵”, 基本公式就是交叉熵公式)改进香农互信息的文章是1990年发表的:
Lu C., “Shannon equations reform and applications”, BUSEFAL, 44, 1990
(BUSEFAL是一个不太正规的模糊数学杂志, 法国人Didier Dubois and Henri Prade主编的)
我的国内文章最早是1991年发表的:
鲁晨光. Shannon公式改造,通信学报, 12 ,2(1991),95-96.
我关于交叉互信息(即广义互信息或语义互信息)详细讨论的文章是在1993-1997发表的。详见:http://survivor99.com/lcg/books/GIT/
我将近15年没有继续研究交流,所以知道我的研究的人很少。虽然我把交叉熵用于统计学习主要是最近,但是1993年我就提出R(G)函数——是香农信息率失真函数R(D)的更有意义形式——R(D)给定对数标准似然度(G)的最小香农互信息。 这一函数和统计学习密切相关, 看来用它可以更好解决最大似然估计(包括不可见实例分类)和混合模型问题:
http://survivor99.com/lcg/CM/Recent.html
两相比较,Rubinstein结合样本检验比我早, 应用也有所不同。我的交叉熵有两种, 一种是含有似然函数的, 和Rubinstein的相同; 另一种是含有一组真值函数或隶属函数的——到现在西方也没有;两种可以通过新的贝叶斯公式相互转换。另外一个不同是我的方法和香农理论关系更紧密(香农互信息是语义互信息的上限)。
争发明权也没有太大意义,都是站在前人肩膀上。但是,一说新方法, 马上就有人否定,认为西方早有了, 这让人感觉不是滋味。
我还发现鸟类华丽羽毛模拟他们喜爱的食物和环境,也有人说西方早发现了。 但是经过考察,可见也是我的发现在先。参看:
http://blog.sciencenet.cn/blog-2056-851470.html
我还发现了对称的色觉机制模型,也有人说西方早就有了。 我一查, 也是我在先,西方的还没有我的简洁巧妙。 参看这里:
http://blog.sciencenet.cn/blog-2056-677498.html
大多数人见惯不怪, 我相反。所以我的发现比别人多。当然,我也有很多次发现别人早发现的东西, 或者误解前人。所以我也欢迎砸砖。
我最近还发现了第三种贝叶斯定理, 通过它可以用样本求解真值函数或隶属函数(不久推出)。是不是“新大陆”有待读者明鉴。
还有人笑言:苹果砸了很多人, 可是牛顿只有一个。
但是,我要说,没有思考过伽利略的比萨斜塔实验的人被苹果砸了多少次也没用。我至少是最早发现交叉熵用处的两个人中的一个吧?要是交叉熵对于机器学习像能量对于物理学一样重要,朝这个方向走的人(也许是一批人)就会建立机器学习的“牛顿力学”。
总会有人有时候运气好一点, 捡了大漏吧?~_~
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-28 20:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社