||
香农于1948年发表了长文《一个通信的数学理论》【1】,标志了香农信息论的诞生。七十多年来,从电子通信到互联网,从数据处理到人工智能,到处都显示了香农信息论的威力。但是,另一方面,香农信息论也存在很多缺陷或局限性——
1) 香农信息公式不能用来度量日常语言所说的很多信息,比如天气预报信息,也不能度量测量仪器提供的信息,比如温度表和GPS指针提供的信息, 更不能度量感觉信息。
2) 香农信息不能反映对错,天气预报总是说对或总是说错了,香农信息量一样多。这违背我们的常识。
3) 机器学习常常需要用样本分布检验和训练学习函数(比如似然函数和相似函数),我们不能同时把样本分布和学习函数同时放进互信息公式。这也是为什么机器学习采用最小交叉熵而不是某种香农熵作为优化准则。
4) 失真函数是人为定义的,没有客观标准。另外,失真准则是“无过便是德”的准则,很多情况下不太合适。这也是为什么机器学习中使用最大似然准则和正则化最小误差平方准则。
5) 香农信息论不用信息而用误差反映通信质量,不能解决非常重要的最大互信息分类问题——包括最大互信息医学检验和0-1电信号检测(参看**节)。
我们以GPS定位为例看用香农公式度量语义信息有多困难。图2是我在动车上使用定位地图的手机截屏, 它告诉我们动车当前位置。显然定位提供信息。怎样用香农信息公式度量定位信息?这几乎是不可能的。原因是,一个定位设备只提供预测中心和精度——比如RMS(平均误差平方的开方,后面记为σ),并不提供香农信息公式需要的先验概率和后验概率。
图 2 GPS定位提供信息。定位有误差,定位中心并不是最大可能位置
设x是实际位置,yj是估计, 即yj=xj^=“x是xj”。有人可能据此说P(x|yj)是以xj为中心的正态分布或高斯分布,即:
(3)
如果这样,圆圈中心就是预测的最大可能位置。但是GPS定位定的是模糊范围,并不x的后验概率分布。定位中心经常在水里和农田里,但是我们不会认为动车真的在水里或农田里。根据常识或先验知识,动车肯定在铁轨上;铁轨上离定位中心最近的地方才是最大可能位置。如果人和车在高速公路上,则高速公路离定位中心最近的地方是最大可能位置。如果认为定位表示的是P(yj|x)(yj不变,x变) 也不行,因为它不是归一化函数,不能用正态分布函数表示。可见对于GPS定位,使用经典信息论,定位的后验概率无法表示。
另外,动车的实际位置也不一定就是预测的最大可能位置,而是可能在铁轨上任何地方。因为香农信息公式不能反映真假对错,所以没法度量涉及误差的信息——语义信息。自然语言提供的信息是类似的。张三实际17岁,“张三是年轻人”提供的信息是多少?如果张三实际上是30岁或50岁呢?香农理论无能为力。
假设我们不知道GPS设备的精度和系统误差(即中心偏差),希望使用最大信息准则并用样本分布优化GPS精度和系统误差(机器学习问题),香农理论也无能为力。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 13:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社