|||
广义Kulback-Leibler语义信息公式和最大似然法的一致性
鲁晨光
(这是一篇长文的摘要,删除了部分哲学讨论,保留了和统计及信息论相关的内容,目的是让研究最大似然法的学者看看。我相信文中广义信息公式可以比Kullback-Leibler公式更方便表达和解决最大似然问题,并能解决最大似然学派和贝叶斯学派的矛盾。文中公式(15)是一个重要结论,应该能给最大似然估计供极大方便。笔者研究估计问题时间不长, 不妥之处欢迎指正。)
1.引言
Shannon (1948)发表文章:《通信的数学理论》[5],随后Weaver提出语义信息[5]研究方向,Bar-Hillel, Y. 和 Carnap (卡尔纳普) [6]提出用逻辑概率代替统计概率度量语义学信息.公式是inf(i)=-logmp(i)。其中i是命题,mp是逻辑概率。不过最早提出概率和信息反相关的却是 Popper (波普尔)。 Popper早在1935年的著作《科学发现的逻辑》([3],96,269)中就提出用可检验性,或可证伪性,或信息作为科学理论划界和评价的准则,并且明确提出,概率越小,信息量越大。后面谈到,Popper提出的检验的严厉性公式([4],526)稍加改善,就可以用作语义信息计算。
在Barhillel,Carnap和Popper之后,西方语义信息测度的研究总结见[7], 关于信息哲学的研究总结见[8]。西方最有代表性的研究者是Floridi [7-10]。中国最著名的语义信息倡导者和研究者是钟义信[11]. 另外也有其他学者研究广义信息[12]或多或少联系到语义信息。但是根据上述研究,我们仍然不能计算一个简单预测比如“明天有大雨”或“小偷大约20岁”的信息;或GPS箭头、手表指针、温度表和秤的读数提供的信息。
另一方面,自从Akaike[13]把Fisher[14]的最大似然度方法和Kullback-Leibler[15](后面简记为KL)公式联系起来讨论估计的优化,越来越多的归纳问题研究者意识到,最大似然度方法信息方法相结合可以同时解释证伪和归纳[3, 4]。他们的研究已经把我们带到迷宫入口附近。但是如何根据事实发生的样本序列确证一个预测,比如“明天有大雨”,“所有天鹅是白的”,并算出它们的确证度?依然众说纷纭,没有一致结论[3, 4]。
笔者以为,流行的语义信息和归纳问题研究的困难都是由于:统计概率,逻辑概率,命题真值,真值函数等没有很好区分,比如同时用P表示统计概率和逻辑概率,同时用E表示个体和变量,因而使得分析的框架不清晰。
笔者曾提出和Shannon及Popper理论兼容的广义信息论[16,17,18],它能很好解释证伪。笔者最近研究发现,可以通过降低对假设的信任度,减少预测失误带来的信息损失,提高平均信息。这样,平均语义信息公式就可以同时用于计算Popper的信息和优化现代归纳主义研究的确证度。和流行的做法不同,这个公式同时使用了逻辑概率(用T表示)和统计概率(用P表示,反映证据和背景知识)。重要的是,公式还使用了模糊真值函数( 即条件逻辑概率)以及信任度c(它在-1和1之间变化)。本文继承或关系到Popper,Shannon,Barhil and Carnap, Zadeh,Kulback and Leibler,Fisher,Akaike等人的研究结果。
下面首先讨论谓词的真值函数和逻辑概率,以及它们和统计概率之间的关系。然后通过推广经典信息公式得到平均语义信息公式和广义Kullback-Leibler公式,说明它们如何用于预测的信息评价,如何符合Popper用于检验或证伪的信息准则。文中最后讨论,如何优化假设,包括优化信任度c,从而提高平均语义信息,使之达到其上限:KL信息。
2.真值函数和逻辑概率2.1命题的真值和谓词的真值函数
日常语言中,语句真假往往是模糊的。比如猜测“小偷大约20岁”,这话的真假是模糊的,该在0和1之间变化。如果小偷真的20岁,预测真值就是1,如果有偏差,比如是25岁,真值就变小,比如说是0.5;如果是30岁,真值就更小。所以日常语言的真值函数取值于实数区间[0,1]而不是二值集合{0,1}.后面讲到的真值函数都是模糊真值函数。
我们用大写字母E表示一个变量,代表一个个体(individual)或证据,它是个体e1, e2,…,em中的一个,这些个体构成集合A,于是有E∈A={e1, e2, …,em}。E =ei表示ei发生。类似地,预测或假设是H∈B={h1, h2, …, hn}. 一个预测hj发生后,E=ei,预测就变为命题hj(ei).
用经典信息论的语言来说,P(E)是信源或先验概率分布,P(H)是信宿。条件概率矩阵P(H|E)是信道。对于语义通信来说,在Shannon信道之外还存在语义信道T(H|E)。
一个典型的语义通信例子是天气预报,E表示降水量,比如15mm. H表示降水量预报。比如h1=“.无雨”(比如“明天无雨”,其他类推),h2=“.有雨”,h3=“.小雨”,h4=“.中雨”,h5=“.小到中雨”… H=hj表示hj被选择。类似的例子是关于年龄(E)的一组陈述(H):“.是小孩“,“.是年轻人”,“.是中年人”,“.是老年人”。
另一个典型的语义通信方式是数值预测或估计(后面简称估计,数学上通常记为e^j,e^j=hj=hj(E)=“E≈ej”=“E大约是ej”。不光是语言表达的估计,GPS的箭头,手表的指针,甚至一种色觉,都可以看做是一个估计. 估计的例子参看表1.
表 1 估计hj=e^j=“E≈ej”举例
例子 | 预测或假设hj=“E≈ej” | 事实或证据E | ei | hj(ei)的真值T(Aj|ei)大约是 |
日常语言 | “小偷大约20岁” | 小偷实际年龄 | 18岁 | 0.9 |
经济预测 | “今年股市可能涨20%” | 实际涨幅 | 0 | 0.1 |
秤 | 秤的读数“1KG” | 实际重量 | 0.9KG | 0.3 |
GPS | 地图上箭头↖ | 实际位置 | 偏右5米位置 | 0.9 |
色觉 | 一种色觉比如黄色觉 | 实际色光,带有某种主波长 | 主波长是660nm的色光 | 0.7 |
用Zadeh[19,20]开创的模糊数学的语言说,相对hj=hj(E), A中有一个使hj为真的模糊子集Aj, 一个元素E在Aj上的隶属度函数mAj(E)就是就是hj的真值函数,记为
T(hj(E))=T(hj|E)=T(Aj|E)= mAj(E) (1)
当E=ei时,真值函数就变为真值T(Aj|ei).
天气预报等自然语言的真值函数来自习惯用法,后面将证明它们来自过去的条件概率函数P(hj|E)。如果不知道过去的P(hj|E),也可以采用随机集合的统计方法得到[21]。而估计hj=“E≈ej”的真值函数来自人工定义和实际误差概率分布——也取决于过去的条件概率P(hj|E),可以近似地用指数函数(没有系数的正态分布)
T(Aj|E)=exp[-(E-ej)2/(2d2)] (2)
表示,其最大值是1。其中d表示标准差,反映估计的模糊程度,d越大,估计就越模糊, 函数波形覆盖面积越大。这里我们假设这些估计都是无偏估计,有些非无偏估计可以通过对E的转换得到,比如用E0.5代替E,使估计成为无偏估计。
假设相对每个hj或Aj, 存在一个ej(相当于柏拉图的理念和我让通常说的典型)使得T(Aj|ej)=1, 那么,hj(ei)的真值T(Aj|ei)就可以理解为ei和ej的相似度或混淆概率。
2.2 逻辑概率T(Aj)及其和真值函数T(Aj|E)及信源P(E)的关系
后面内容见附件 语义信息最大似然度理论-short博文.pdf
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-3 03:14
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社