||
1. 引论——理解信息、语义信息和语义通信
自香农信息论诞生以来,关于信息的概念和信息论就一直存在激烈争议,如James Gleik的畅销书《信息:一个理论,一个历史,一个洪水》【】所言。Mark Burgin在《信息论:本质• 多样性•统一》【】一书中也介绍了各种不同的信息理论。关于语义信息论,争议就更加激烈。上个世纪,语义信息论在经典信息论和计算机科学之间,两边受歧视。我以为,概念混乱是歧视的主要原因。不理解时看到的就尽是混乱;理解了,一切都变得清晰简单。
为此,本章主要任务是澄清信息和语义信息的概念,澄清信息论和其他学科的区别和联系,以及语义信息论和香农信息论的区别和联系。其中回顾了语义信息论(包括经典信息论)的研究历史,介绍了语义通信研究最新动向。最后回顾了熵理论并讨论了其发展方向。
英文中两个单词“information”和“message”都可能翻译成信息,但是严格说来, 前者是信息论所说的信息,后者在大多数情况下应翻译成“消息”或“留言”。可以说,message是information的载体,information是message的内容。
如果用通俗的语言来说,信息就是我们以前不知道或知道得不那么确定的东西。不确定又分为发生不确定和范围不确定。发生不确定的例子比如:看见闪电,我们知道很快有雷声——雷声的确定性提高了,闪电就提供关于雷声的信息。类似地,公鸡叫提供关于天亮的信息;树枝弯曲提供关于风的信息。前者提高了后者发生的确定性。这类信息就是香农信息,信息量可以通过概率的增加来表示。这也是为什么香农定义:信息是减小的不确定性。
范围不确定的例子比如:我以前不知道张三年纪,你告诉我他是未成年人,我就得到了关于他年纪的信息——因为不确定范围减小了。如果你告诉我张三17岁, 我得到的信息就更多,因为不确定范围更小了。自然语言提供的几乎所有信息都涉及范围或概念外延。自然语言告诉我们以前不知道的东西是什么?就是回答“谁”,“什么”、“何时”、“在哪”、“干什么”、“怎样”…时提供的。这些回答减少了所指对象范围的不确定性。我们称这类信息是语义信息。
英语中的语义信息是“semantic information”, semantic在这里的意思是有含义的,所以语义信息不限于语言的信息。因为时钟、定位地图、温度表、股市指数、红绿灯…也回答各种疑问,也能翻译成对疑问句的回答,所以它们也提供语义信息。西方哲学家Floridi就如此肯定【】,我很赞成。机器学习中,有人也称反映事物特征的图案(比如像水的波纹)含有语义信息。语义在这里当理解为“有含义的”。
我们的感官和测量仪器是类似的,比如一种色觉反映了某些色光(它们的主波长和饱和度相同),也提供语义信息。信息的多少和感官的色觉分辨率有关。我的语义信息研究就是从色觉开始的。我于1990年在一个不正规的英文模糊数学期刊BUSEFAL上发表了一篇文章《香农公式改造和应用》【】,其中就有现在机器学习常用的交叉熵和SoftMax函数,也有最近一些学者提出的语义熵【】。我在这篇文章中就讨论了怎样度量色觉信息,以及色觉信息如何和分辨率相关。
各种含有语义信息的载体,比如GPS指针(指一般的全球定位系统,而非特指美国的GPS),都有一个共同特点:代表一个小范围内对象,而事实可能超出这个小范围,有对错或误差。
有人会说,一个真的小狗出现时,它自身就提供语义信息。其实小狗也还是通过我们的感官察觉到的,在理论上存在错误或误解的可能。如果错误可能性极小,为方便起见,我们也可以假设事物自身提供信息或语义信息。不过信息多少还是和观察者的分辨率有关。
现在我们可以说, 香农信息是减少的事件发生的不确定性,语义信息是减少的概念外延(所指对象的范围)的不确定性。无论对于香农信息还是语义信息,香农的信息定义——信息是减少的不确定性——同样适合。
有香农信息未必有语义信息,但有语义信息必然有香农信息。比如医学检验中,阴性表示没病,阳性表示有病;阴性和阳性提供关于有病没病的语义信息。如果不考虑对错,信息就是香农信息。因为用香农信息公式度量阴性和阳性提供的信息的时候,即使总是报反了,香农信息一样多;而语义信息量会不一样。天气预报也是如此【】。GPS定位提供的信息也是,包含香农信息和语义信息,如果存在系统偏差,语义信息就大为减少;而香农信息不变。
很多从事信息研究的人不承认香农的信息定义,主要原因是香农的定义和他们理解的信息不同。信息论(包括语义信息论)中提到的信息指的是类别信息——根据符号(代表的概念)的外延或发生的概率,而不考虑对象本身是什么样子。比如我们度量“老年人”的信息,只根据“老年人”的外延——包含哪些年龄的人,而不考虑老年人具体是什么样子,即不考虑很多属性,比如头发白,皱纹多、衰老等。要提供“老年人”的各种属性信息,最好是手指老年人,或通过绘画和视频说明。类似地,要想通过各种动植物名称提供动植物的属性信息,最好的办法是用图文字典或纪录片。提供对象的类别信息和提供对象的各种属性信息,任务不同。不能因为一个否定另一个。
我研究过颠倒色觉的逻辑可能性——见我的专著《色觉奥妙和哲学基本问题》【】,得到重要结论:如果两个人天生色觉不同,但是同样能分辨不同色光,则他们能同样说”花红草绿”;色觉不同甚至颠倒,不影响语言一致;自然语言中“红”指的是某类色光,而非人的某种感觉。所以,色觉提供的信息是关于色光的类别信息,而不是关于色光本身是什么样子的信息。这也说明,我们追究外物自身是什么样子,最终得到的还是类别的信息,而不是外物自身属性的信息。
色觉天生颠倒不影响语言一致,这在美国已经是比较公认的结论,但是美国哲学家没有得到我关于实指定义的结论——那样他们就是唯物主义者了。参看斯坦福哲学百科全书条目“Inverted Qualie”【】和我的文章《由颠倒色觉的逻辑可能性澄清实指定义》【】。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-4 16:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社