星忱分享 http://blog.sciencenet.cn/u/shanggv 北师大地遥学院

博文

试答黄老邪的对联信息熵问题

已有 6450 次阅读 2009-6-23 13:59 |个人分类:地球系统科学|系统分类:科研笔记| 信息熵

shannon熵是有局限的,它撇开了人的主观因素,只考虑符号(消息)的概率(比如每个汉字出现的概率)。

 

 

先讲自信息。如果某一消息出现所能消除的不确定性越大,一旦它发生,消除的不确定性越大,获得的信息量也就越大。反之,要消除对事件发生的不确定性,也就是从“不知”到“知“就必须获得足够的信息量。而事件发生的不确定性与事件发生的概率有关。事件发生的概率越小,我们猜测它有没有发生的不困难程度就越大,不确定性就越大。根据客观事实和人们的习惯(主观性),自信息要满足以下条件:

1fP)单调递减
2
pai=1时,f(Pi)=0;
3,p(ai)=0
时,f(Pi)=无穷大
4
X,Y相互独立时,fXY=fX)+f(Y)

数学上可证明,这种函数形式只能是对数形式:I=-logpi,底数>1,以2为底,算出来的单位为比特。这个比特与计算机的比特有所不同,是抽象的信息量单位。

 

而信息熵的定义,更准确的说应该是自信息的数学期望,即平均自信息量。在统计物理学中,热熵是一个物理系统杂乱性(无序性)的度量,在概念上两者也有相似之处,因此借用了“熵“这个名称,称为信息熵, Shannon计算公式为:

H=-sigma(pi*logpi);

当所有pi相等时,H达到最大值,logN.其中N为符号个数。

关于信息熵公式的唯一性,是由其选定的公理性条件决定的(主观性),不同的条件会有其它的信息熵表达式。此处不展开(我不懂)。

 

下面,尝试解答黄老邪三瓶好酒悬赏的问题:

“海水朝朝朝朝朝朝朝落;

白云长长长长长长长消。

 

这幅对联的信息熵是多少?“

根据主观判断,其可能的形式有:

1海水潮,朝朝潮,朝潮朝落 
浮云长,常常长,常长常消 

2,海水朝朝潮,朝潮朝朝落 
浮云常常长,常长常常消 

3,海水潮,朝潮,朝潮朝朝落
浮云长,常长,常长常常消

 

当然,还可以有其它解读,为简化起见,此处假设只有三种,并且假设每种解读的情况(人)一样多(实际情况要复杂得多)。

那么这副对联信息熵咋计算呢?

信息熵只管出现概率,不管具体的主观含义

对于“海”,“水”,“浮”,“云”,“落”,“消”六字,所有人都不会有多种理解,也就是说,在这幅对联中只有一种含义(概率为1)它们意义的不确定性为0,这些字的信息熵均为0

第一个“朝”,被解读为“潮”的概率为2/3,被解读为“朝”的概率为1/3.可以求得,该“朝”的信息熵为0.92

依次类推,可以分别求出后面的“朝”,“长”的信息熵。所有信息熵加和,就是整幅对联的信息熵了(具体是多少,俺没算)。

 

以上是最简化的计算方法,准确的计算此对联的信息熵,还要考虑更多。

1,  断句,即标点符号“,”是否出现

这一点较易实现,无非就是在每个字后判断“,”是否出现,计算信息熵。

2,  语义相关

上面的做法是将每个字都看作独立的,但实际的语言中,单字与单字之间,词组与词组之间存在依赖关系。将这些依赖关系考虑进去,要引入条件概率和条件熵才能完整描述。举个例子,“朝”后面出现“潮”的概率为6/10,不可能出现“朝朝朝”或“朝潮潮”的解读方法。(主观性)

 

对于汉语这个信源(系统),也可以计算每个汉字的概率。不过其计算范围不是“对联”,而是整个“汉语”了。比如,可以根据“潮”或“潮”的某种含义在汉字中出现的概率计算其信息量。

下面附加介绍下信息冗余的概念:

y=1-H1/H0,其中H1是实际的信息熵,H0=logN是最大熵,N是符号数。

由于汉语中每个“字”出现的概率不等,且相互之间有依赖关系,所以“汉语”是相当大的信息冗余的。

 

 

可以看出,信息熵不但在定义时有主观性,而且实际运用中,也涉及和“撇开”了主观性。

 

等批。



https://blog.sciencenet.cn/blog-4398-239818.html

上一篇:Guess Who Batman
下一篇:集智俱乐部-一个复杂系统科学的“没有围墙的研究所”
收藏 IP: .*| 热度|

4 杨玲 李小文 鲍得海 龙桃

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 21:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部