鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣:色觉, 哲学, 美学, 进化论,广义信息,投资组合

博文

广义Kulback-Leibler语义信息公式和最大似然法的一致性

已有 3116 次阅读 2016-3-2 07:41 |个人分类:信息的数学和哲学|系统分类:论文交流| 检验, 模型, 语义信息, 广义信息, 最大似然法

广义Kulback-Leibler语义信息公式和最大似然法的一致性

鲁晨光

(这是一篇长文的摘要,删除了部分哲学讨论,保留了和统计及信息论相关的内容,目的是让研究最大似然法的学者看看。我相信文中广义信息公式可以比Kullback-Leibler公式更方便表达和解决最大似然问题,并能解决最大似然学派和贝叶斯学派的矛盾。文中公式(15)是一个重要结论,应该能给最大似然估计供极大方便。笔者研究估计问题时间不长, 不妥之处欢迎指正。)


1.引言

Shannon (1948)发表文章:《通信的数学理论》[5],随后Weaver提出语义信息[5]研究方向,Bar-Hillel, Y. Carnap (卡尔纳普) [6]提出用逻辑概率代替统计概率度量语义学信息.公式是inf(i)=-logmp(i)。其中i是命题,mp是逻辑概率。不过最早提出概率和信息反相关的却是 Popper (波普尔) Popper早在1935年的著作《科学发现的逻辑》([3]96,269)中就提出用可检验性,或可证伪性,或信息作为科学理论划界和评价的准则,并且明确提出,概率越小,信息量越大。后面谈到,Popper提出的检验的严厉性公式([4],526)稍加改善,就可以用作语义信息计算。

BarhillelCarnapPopper之后,西方语义信息测度的研究总结见[7], 关于信息哲学的研究总结见[8]。西方最有代表性的研究者是Floridi [7-10]。中国最著名的语义信息倡导者和研究者是钟义信[11]. 另外也有其他学者研究广义信息[12]或多或少联系到语义信息。但是根据上述研究,我们仍然不能计算一个简单预测比如明天有大雨小偷大约20的信息;或GPS箭头、手表指针、温度表和秤的读数提供的信息。

另一方面,自从Akaike[13]Fisher[14]的最大似然度方法和Kullback-Leibler[15](后面简记为KL)公式联系起来讨论估计的优化,越来越多的归纳问题研究者意识到,最大似然度方法信息方法相结合可以同时解释证伪和归纳[3, 4]。他们的研究已经把我们带到迷宫入口附近。但是如何根据事实发生的样本序列确证一个预测,比如明天有大雨所有天鹅是白的,并算出它们的确证度?依然众说纷纭,没有一致结论[3, 4]

笔者以为,流行的语义信息和归纳问题研究的困难都是由于:统计概率,逻辑概率,命题真值,真值函数等没有很好区分,比如同时用P表示统计概率和逻辑概率,同时用E表示个体和变量,因而使得分析的框架不清晰。

笔者曾提出和ShannonPopper理论兼容的广义信息论[16,17,18],它能很好解释证伪。笔者最近研究发现,可以通过降低对假设的信任度,减少预测失误带来的信息损失,提高平均信息。这样,平均语义信息公式就可以同时用于计算Popper的信息和优化现代归纳主义研究的确证度。和流行的做法不同,这个公式同时使用了逻辑概率(T表示)和统计概率(P表示,反映证据和背景知识)。重要的是,公式还使用了模糊真值函数( 即条件逻辑概率)以及信任度c(它在-11之间变化)。本文继承或关系到PopperShannonBarhil and Carnap, ZadehKulback and LeiblerFisherAkaike等人的研究结果。

下面首先讨论谓词的真值函数和逻辑概率,以及它们和统计概率之间的关系。然后通过推广经典信息公式得到平均语义信息公式和广义Kullback-Leibler公式,说明它们如何用于预测的信息评价,如何符合Popper用于检验或证伪的信息准则。文中最后讨论,如何优化假设,包括优化信任度c,从而提高平均语义信息,使之达到其上限:KL信息。

2.真值函数和逻辑概率2.1命题的真值和谓词的真值函数

日常语言中,语句真假往往是模糊的。比如猜测小偷大约20,这话的真假是模糊的,该在01之间变化。如果小偷真的20岁,预测真值就是1,如果有偏差,比如是25岁,真值就变小,比如说是0.5;如果是30岁,真值就更小。所以日常语言的真值函数取值于实数区间[0,1]而不是二值集合{0,1}.后面讲到的真值函数都是模糊真值函数。

我们用大写字母E表示一个变量,代表一个个体(individual)或证据,它是个体e1, e2,…em中的一个,这些个体构成集合A,于是有EA={e1, e2, …em}E =ei表示ei发生。类似地,预测或假设是HB={h1, h2, …, hn}. 一个预测hj发生后,E=ei,预测就变为命题hj(ei).

用经典信息论的语言来说,P(E)是信源或先验概率分布,P(H)是信宿。条件概率矩阵P(H|E)是信道。对于语义通信来说,在Shannon信道之外还存在语义信道T(H|E)

一个典型的语义通信例子是天气预报,E表示降水量,比如15mm. H表示降水量预报。比如h1=.无雨(比如明天无雨其他类推)h2=.有雨h3=.小雨h4=.中雨h5=.小到中雨H=hj表示hj被选择。类似的例子是关于年龄(E)的一组陈述(H).是小孩.是年轻人.是中年人.是老年人

另一个典型的语义通信方式是数值预测或估计(后面简称估计,数学上通常记为e^je^j=hj=hj(E)=Eej”=E大约是ej。不光是语言表达的估计,GPS的箭头,手表的指针,甚至一种色觉,都可以看做是一个估计. 估计的例子参看表1.

1 估计hj=e^j=Eej举例

例子

预测或假设hj=Eej

事实或证据E

ei

hj(ei)的真值T(Aj|ei)大约是

日常语言

小偷大约20

小偷实际年龄

18

0.9

经济预测

今年股市可能涨20%

实际涨幅

0

0.1

秤的读数1KG

实际重量

0.9KG

0.3

GPS

地图上箭头

实际位置

偏右5米位置

0.9

色觉

一种色觉比如黄色觉

实际色光,带有某种主波长

主波长是660nm的色光

0.7

 

       Zadeh[1920]开创的模糊数学的语言说,相对hj=hj(E), A中有一个使hj为真的模糊子集Aj, 一个元素EAj上的隶属度函数mAj(E)就是就是hj的真值函数,记为

T(hj(E))=T(hj|E)=T(Aj|E)= mAj(E)       (1)

E=ei时,真值函数就变为真值T(Aj|ei).

       天气预报等自然语言的真值函数来自习惯用法,后面将证明它们来自过去的条件概率函数P(hj|E)。如果不知道过去的P(hj|E),也可以采用随机集合的统计方法得到[21]。而估计hj=Eej的真值函数来自人工定义和实际误差概率分布——也取决于过去的条件概率P(hj|E),可以近似地用指数函数(没有系数的正态分布)

T(Aj|E)=exp[-(E-ej)2/(2d2)]     (2)

表示,其最大值是1。其中d表示标准差,反映估计的模糊程度,d越大,估计就越模糊, 函数波形覆盖面积越大。这里我们假设这些估计都是无偏估计,有些非无偏估计可以通过对E的转换得到,比如用E0.5代替E,使估计成为无偏估计。

假设相对每个hjAj, 存在一个ej(相当于柏拉图的理念和我让通常说的典型)使得T(Aj|ej)=1, 那么,hj(ei)的真值T(Aj|ei)就可以理解为eiej的相似度或混淆概率。

2.2 逻辑概率T(Aj)及其和真值函数T(Aj|E)及信源P(E)的关系

       后面内容见附件 语义信息最大似然度理论-short博文.pdf



http://blog.sciencenet.cn/blog-2056-959865.html

上一篇:信息哲学不能无视信息论对哲学的冲击
下一篇:《探索审美趣味和鸟类华丽羽毛起源》--难出版的书稿

2 谢平 icgwang

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-4-12 04:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部