鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣:色觉, 哲学, 美学, 进化论,广义信息,投资组合

博文

一个新的数学框架用于机器学习——挑战流行的贝叶斯主义推理...

已有 1186 次阅读 2018-3-14 00:58 |个人分类:信息的数学和哲学|系统分类:论文交流| 人工智能, 机器学习, 贝叶斯推理, 语义信息方法

  我想写一篇《一个新的数学框架用于机器学习——挑战流行的贝叶斯主义推理》, 在人工智能会议上交流。这里是一个提要, 希望赢得知音, 得到知音支持,从而有机会大会发言。

  最近两年多, 我一直在努力用语义信息方法改造挑战流行的Bayesian Inference方法。语义信息方法包括:

  1)语义信息准则——用真值函数产生似然函数,用log(normalized llikelihood)定义语义信息, 以及Shannon信道和语义信道之间的相互匹配方法;

  2)第三种贝叶斯定理——把真值函数或隶属函数带进贝叶斯公式,建立实例,标签和“实例隶属于类别”三者之间的条件概率关系);

  3)模糊数学方法, 包括汪培庄教授的因素空间方法(用因素空间表示观察条件,用于不可见实例学习和分类——半监督学习)。

  为了有说服力,我陆续研究了半监督学习问题(包括最大似然检核估计,不可见实例的分类),无监督学习问题(典型的是混合模型),和有监督学习问题(如多标签分类)。我以为取得了很好的结果,特别是得到了快速收敛的信道匹配迭代算法。这些都是外围战斗,结果见已经完成或发表的论文:http://survivor99.com/lcg/CM/Recent.html 

 下面我要做的,就是对新的数学方法做一个总结,同时发起对流行的贝叶斯主义推理(Bayesian Inference)

的总攻。参看: https://en.wikipedia.org/wiki/Bayesian_inference

  Bayesian Inference的问题是:

  1)打着贝叶斯旗号, 实际上并不和传统的贝叶斯方法兼容;比如用Shannon信道P(yj|X),j=1,2,...,可以做传统的贝叶斯预测求P(X|yj),P(X)变化时也可以。但是用Bayesian Inference, 不仅预测极为困难,而且结果也不同。

  2)号称使用逻辑概率和主观概率, 实际上从来没有使用逻辑概率——因为逻辑概率不是归一化的(考虑天气预报“明天无雨”,“明天有雨”, “明天有小雨”, “明天有小到中雨”,...),也从来没有使用真值函数——它反映假设或标签的语义。Bayesian Inference 使用的P(θ)是归一化的, 根本不能用作逻辑概率。

  3)没有统一的优化准则,和似然度方法不兼容,最大后验或平均后验也和信息论方法不兼容。因为按照Popper理论,先验逻辑概率小,潜在信息才多。

  4)Bayesian Inference 中的先验知识P(θ),即模型参数的概率分布,可以说是很怪异的。人类很少有这样的先验知识。 人类的先验知识用两种:1)事实的先验概率分布P(X), 比如不同年龄的概率分布;2)概念的外延——比如“老人”所指年龄的大概范围。贝叶斯推理举例总用掷骰子(概率的概率),能不能用用别的?比如关于天气预报, 关于GPS, 关于疾病诊断?

  5)Baysian Inference的贝叶斯后验P(θ)*normalized-likelihood把标签学习和标签选择捆绑在一起,不利于模型的迁移应用。人类的标签学习(收信人要做的, 得到概念外延)和标签选择(发信人描述和预测)是分开的。 

  6)用正则化修正误差准则, 其理由是不清楚的。 相比之下,语义信息准则, 包括Popper的小逻辑概率准则要清楚得多!  

  很多人抱怨人工智能和机器学习方法碎片化严重, 还有很多人抱怨中国人缺少创新思维和批判精神。我在努力改变, 希望有人理解并支持。





http://blog.sciencenet.cn/blog-2056-1103771.html

上一篇:通过实指定义词汇澄清塞尔中文屋悖论
下一篇:我捡到大漏了——发现混合模型收敛严格证明方法

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2018-12-11 14:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部