鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣:色觉, 哲学, 美学, 进化论,广义信息,投资组合

博文

交叉熵是谁最早提出和应用的?

已有 10821 次阅读 2018-3-1 14:31 |个人分类:信息的数学和哲学|系统分类:论文交流| 交叉熵, 信息论, 似然度, 机器学习, 人工智能

交叉熵(cross-entropy,CE)最简单形式就是H=-∑P(xi)logP(xi|θ). log后面是似然度或预测的概率。下面是wikipedia介绍:

https://en.wikipedia.org/wiki/Cross_entropy

我在一个群里说,人工智能需要一个像物理学中“能量”那样的贯穿很多公式的概念,这个概念应该是信息。我用语义信息方法优化假设检验和统计学习,语义互信息是用“I=平均lognormalized似然度)”定义的,或者说是用交叉熵定义的。其中似然度是通过隶属函数产生的。

有专家说:“对是对的, 不过不够; AI前言论文中一直都在用, 要往前走,不要停留在N年前的思路上, 那样就落伍了, 这样很危险,... 前沿论文中似然度和交叉熵已经用的很多了,别自恋...”

前面几句说得很好,但是后面几句看了不是滋味。好像我只不过学了西方学者,或者是发现“新大陆”。我要说, 我不但不是完全学了别人的,而且我提出和应用交叉熵实际上在西方之前。

西方交叉熵研究历史介绍(可以下载全文):https://research.utwente.nl/en/publications/a-tutorial-on-the-cross-entropy-method

其中有一段:

The CE method was motivated by an adaptive algorithm for estimating probabilities of rare events in complex stochastic networks (Rubinstein, 1997), which involves variance minimization. It was soon realized (Rubinstein, 1999, 2001) that a simple cross-entropy modification of Rubinstein (1997) could be used not only for estimating probabilities of rare events but for solving difficult COPs as well. This is done by translating the “deterministic” optimization problem into a related “stochastic” optimization problem and then using rare event simulation techniques similar to Rubinstein (1997). Several recent applications demonstrate the power of the CE method (Rubinstein, 1999) as a generic and practical tool for solving NP-hard problems.

可见,西方交叉熵最早是Rubinstein 1997年提出的。Rubinstein简介:

https://en.wikipedia.org/wiki/Reuven_Rubinstein

      但是我最早提出用交叉熵(我当时的用词是广义熵 基本公式就是交叉熵公式)改进香农互信息的文章是1990年发表的:

 Lu C., “Shannon equations reform and applications”, BUSEFAL, 44, 1990

(BUSEFAL是一个不太正规的模糊数学杂志, 法国人Didier Dubois and Henri Prade主编的)

      我的国内文章最早是1991年发表的:

      鲁晨光Shannon公式改造,通信学报, 12 2(1991),95-96.

我关于交叉互信息(即广义互信息或语义互信息)详细讨论的文章是在1993-1997发表的。详见:http://survivor99.com/lcg/books/GIT/

 我将近15年没有继续研究交流,所以知道我的研究的人很少。虽然我把交叉熵用于统计学习主要是最近,但是1993年我就提出R(G)函数——是香农信息率失真函数R(D)的更有意义形式——R(D)给定对数标准似然度(G)的最小香农互信息。 这一函数和统计学习密切相关, 看来用它可以更好解决最大似然估计(包括不可见实例分类)和混合模型问题:

http://survivor99.com/lcg/CM/Recent.html

          两相比较,Rubinstein结合样本检验比我早, 应用也有所不同。我的交叉熵有两种, 一种是含有似然函数的, Rubinstein的相同; 另一种是含有一组真值函数或隶属函数的——到现在西方也没有;两种可以通过新的贝叶斯公式相互转换。另外一个不同是我的方法和香农理论关系更紧密(香农互信息是语义互信息的上限)。

      争发明权也没有太大意义,都是站在前人肩膀上。但是,一说新方法, 马上就有人否定,认为西方早有了, 这让人感觉不是滋味。

      我还发现鸟类华丽羽毛模拟他们喜爱的食物和环境,也有人说西方早发现了。 但是经过考察,可见也是我的发现在先。参看:

http://blog.sciencenet.cn/blog-2056-851470.html

      我还发现了对称的色觉机制模型,也有人说西方早就有了。 我一查, 也是我在先,西方的还没有我的简洁巧妙。 参看这里:

http://blog.sciencenet.cn/blog-2056-677498.html

大多数人见惯不怪, 我相反。所以我的发现比别人多。当然,我也有很多次发现别人早发现的东西, 或者误解前人。所以我也欢迎砸砖。

我最近还发现了第三种贝叶斯定理, 通过它可以用样本求解真值函数或隶属函数(不久推出)。是不是新大陆有待读者明鉴。

还有人笑言:苹果砸了很多人, 可是牛顿只有一个。

但是,我要说,没有思考过伽利略的比萨斜塔实验的人被苹果砸了多少次也没用。我至少是最早发现交叉熵用处的两个人中的一个吧?要是交叉熵对于机器学习像能量对于物理学一样重要,朝这个方向走的人(也许是一批人)就会建立机器学习的牛顿力学

总会有人有时候运气好一点捡了大漏吧?~_~





https://blog.sciencenet.cn/blog-2056-1101769.html

上一篇:EM算法是炼金术吗?
下一篇:从语义信息论看正则化准则
收藏 IP: 99.199.188.*| 热度|

1 张学文

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-28 20:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部