博文

为什么用了log就是信息论？--《语义信息G理论——用于语义通信，机器学习和科学哲学》连载之3

已有 1966 次阅读 2024-12-11 10:41 |个人分类:信息的数学和哲学|系统分类:论文交流

由于历史的原因，信息论是优化通信的数学理论的简称。还有很多学科，虽然主要任务是研究信息获取（比如遥感、光谱分析、医学检验），或研究信息处理或传递（比如计算机科学、统计学、情报学），或关于信息的一般理论（如信息哲学、信息生态学），虽然和信息论相关，但是这些学科可以包含在信息科学中，它们本身都不算是信息论。区分一种研究是不是属于信息论或熵理论的粗略标准是看它用不用对数即log。

为什么信息科学中用了log就是信息论，没用log就不是？因为优化通信系统首先需要度量信息，度量信息要用log。为什么要用log？理由是：发送等概率的N个符号中的一个，最短平均码长是logN. 比如8种颜色，用0-1码发送的最短码长是log 8=3，编码是000, 001, 011, 010, 110，100, 101, 111。相互独立的两个信号（a个信号中的一个和b个信号中的一个）传递的信息量应该是它们单独传递的信息量之和。log函数能保证log(ab)=log(a)+log(b).

信息熵（logPi 的平均）和物理学熵本质相似，表达物理学熵要用log。

最早用log定义信息量的是哈特莱(Hartley)【】. 假设y告诉我们x是N个符号中的一个，那么y提供关于x的信息就是

I=logN, (1)

log可能以2为底，也可能以其他数字为底，使用不同的底算出的信息单位不同。以2为底算出的信息量是比特。上式假设每个符号发生的概率相等。如果不等呢？香农提出用概率，即log（1/P），其平均就是香农熵——它反映无失真编码最短平均码长。哈特莱信息是香农信息的特例，因为设概率P=1/N, 就I=log[1/P]=logN. 如果我们原先知道x是N1个符号中的一个，y告诉我们x是N2个符号中的一个，那么y提供关于x的信息用哈特莱公式计算就是I=log(N1)-log（N2)=log（N1/N2），用概率计算就是

I=log（P2/P1）（2）

其中P1=1/N1, P2=1/N2. 该信息（量）反映了因y预测而节省的编码长度。其平均就是香农互信息。

不过香农不太情愿谈论单个事件提供的信息，因为这样计算的信息可能是负的，负信息在他看来不好理解。而用平均信息公式就能保证信息量总是正的。但是，从语义信息论的角度看，负信息正好能解释错误预测和谎言提供的信息，它不但不会节省反而会增加我们的编码长度。

信息量（后面有时也简称信息）和概率有关，这不是香农的发现。哲学家波普尔早在1934出版的《科学发现的逻辑》【】中就指出：一个假设的概率（逻辑概率）越小，其信息量就越大，如果它经得起事实的检验。这一思想也是我构造语义信息公式的指导思想。

度量信息只是信息论的手段，优化通信才是目的。香农通信系统可以简化为信源，信道和信宿三部分。参看图1的实线部分。

图 1 简化的香农通信模型（虚线部分表示失真约束）

实际上，信源和信宿之间还有失真约束（见虚线部分）。虽然度量香农信息可以不考虑失真，但是编码解码要考虑。信道指向失真函数的箭头表示信道要匹配失真函数的约束。后面我们将看到，语义通信模型只是把失真约束改为语义约束，两者之间并无太大差别。

经典的通信优化问题包括：

 怎样用最短平均码长无失真地传递具有某种概率分布的信源？

 给定信道，如何改变信源使之匹配信道，从而传递更多信息？这是信道容量问题。

 如何在有限失真的情况下，用较少的信息率或平均码长传递给定的信源符号？这是经济性问题，也是信道匹配信源和失真函数问题。

类似地，语义信息论的主要任务是优化语义通信。语义通信模型简单说来就是在香农通信模型基础上用语义或语义信息约束替代失真约束。优化语义通信主要是让语义信道和香农信道相互匹配。后面详谈。

需要提前说明的是，在语义信息G理论（简称G理论）中，语义信息量并不对标香农信息量，而是对标失真量。和失真量类似，语义信息量反映通信质量。用最大语义信息准则代替最小失真准则就像是用“功大于过便是德”的准则代替“无过便是德”的准则。优化语义通信的最重要任务是怎样用较少的香农信息传递较多的语义信息，就像热功系统中，我们需要耗费较少的自由能做较多的功。

我推广香农的信息率失真函数R(D)得到R(G)函数, G是给定的语义互信息——如功，R是必要的香农互信息——如耗费的自由能。G/R就反映优化的信息效率。后面我们将看到，包含log函数的互信息公式和语义互信息公式是优化语义通信和机器学习的巧妙而有力的工具。

转载本文请联系原作者获取授权，同时请注明本文来自鲁晨光科学网博客。
链接地址：https://blog.sciencenet.cn/blog-2056-1463811.html

上一篇：什么是语义信息——《语义信息论用于语义通信，机器学习和科学哲学》连载之2
下一篇：香农信息论的局限性——《语义信息G理论...》连载之4

收藏 IP: 99.199.191.*| 热度|

当前推荐数：2 推荐人：黄河宁 张学文

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

鲁晨光

扫一扫，分享此博文

鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣：色觉，哲学，美学，进化论，广义信息，投资组合

博文

为什么用了log就是信息论？--《语义信息G理论——用于语义通信，机器学习和科学哲学》连载之3

当前推荐数：2 推荐人：黄河宁 张学文

该博文允许注册用户评论请点击登录评论 (0 个评论)

鲁晨光

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣：色觉， 哲学， 美学， 进化论，广义信息，投资组合

博文

为什么用了log就是信息论？--《语义信息G理论——用于语义通信，机器学习和科学哲学》连载之3

当前推荐数：2 推荐人： 黄河宁 张学文

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

鲁晨光

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣：色觉，哲学，美学，进化论，广义信息，投资组合

当前推荐数：2 推荐人：黄河宁张学文

该博文允许注册用户评论请点击登录评论 (0 个评论)