博文

澄清关于语义信息的一些问题 ——兼比较各种语义信息理论

已有 2170 次阅读 2024-7-10 09:40 |个人分类:信息的数学和哲学|系统分类:论文交流

1. 序言

信息论是优化信息传输的数学理论，香农信息论是代表。关于信息的更广范围研究，我们称之为信息科学。我研究语义信息论30多年，现在终于看到有更多人加入语义信息论研究。在我之前有北邮的吴伟陵教授和钟义信教授。钟义信教授最有名气，不过他研究范围更广的信息科学和哲学较多，研究信息的数学较少。我最近看了两篇介绍语义信息论的文章，一篇是北邮专家写的研究文章：《语义通信的数学理论》（后面简称文1），英文见 https://arxiv.org/abs/2401.13387 ；另一篇是清华教授为主写的综述：《语义通信：理论发展综述》（文2），英文见：https://www.mdpi.com/1099-4300/26/2/102 。我在微信群里介绍了不少文献，包括这两篇和我发表的语义信息论用于机器学习的文章（见http://www.survivor99.com/lcg/CM/Recent.html ）。从这两篇文章和群友的对话看，我觉得很多人对语义信息论涉及的一些问题还不太了解。这些问题比如：哪些信息是语义信息？语义信息和香农信息的主要区别是什么？如何用数学描述语义，并把语义带进语义信息公式？逻辑概率是什么？如何计算逻辑概率？真值和失真之间的关系如何？语义信息和失真之间的关系是怎样的……? 为此，我写了这篇博文，希望能通俗地讲清这些问题；另外，我也想把各种语义信息理论放在一起比较，以便大家取长补短，进一步改进。

2. 从香农信息到语义信息

什么是香农信息？香农信息，比如y提供关于x的信息，是因为yj提高x发生的条件概率P(x|yj)，从而提供关于x的信息, 信息量是

I(xi; yj) = log[P(x|yj)/P(x)]

这是香农互信息的核心部分，其平均就是香农互信息。香农称信息是减少的不确定性。按照香农的互信息计算公式，可以说：信息是通过概率提升而减少的不确定性。

香农信息论在通信领域取得巨大成功，但是香农定义的信息到现在也没有被计算机等领域的人接受。如果你翻开美国计算机科学教科书，你会发现信息定义完全不同。一种常见的定义是：信息是结构化的有用数据。而按常识或某些大辞典定义，信息就是我们以前不知道的东西，要么是直接观察到的，要么是各种疑问句（谁，哪里，什么时候，为什么，干什么…）的回答提供的。为了减少矛盾，大家称日常语言说的信息是语义信息，而称香农信息是统计信息。

语义信息也不限于语言提供的信息。因为时钟、GPS指针、秤，股市指数，红绿定，电池正负极…, 也都可以看作是疑问的回答，也和命题一样存在真假，所以它们也提供语义信息（参看哲学家Floridi的解释：https://plato.stanford.edu/entries/information-semantic/ ）。我赞成这种看法。现在机器学习领域的研究者经常使用“语义信息”一词，他们认为各种数据（包括语音，图像）——只要能代表什么，回答什么，或和什么相似——也都提供语义信息。

在香农发表著名文章不久，Weaver就提出通信的三个水平，分别涉及：1）编码传输问题；2）语义问题；3）效用问题。随后不久，Carnap和Bar-Hillel就提出一个语义信息公式（简称CB公式）：

语义信息量= log(1/逻辑概率)

这个公式贯彻了Popper的思想——逻辑概率越小，信息量越大（见Popper1932年的著作《科学发现的逻辑》）。有人问：按CB公式，错的命题特别是矛盾句，逻辑概率小，难道它们能提供更多语义信息？有人因此说CB公式导致语义信息悖论。但是Popper还补充，一个假设，不光要逻辑概率小，还要经得起检验，才能传递更多信息。然而, 上面公式不能反映事实检验。如何把语义带进信息公式，并能反映事实检验？这是需要解决的问题！

3. 语义，真值，逻辑概率和事实检验

概念的语义包含外延和内涵，外延就是所指或所指的范围，英文是denotation。内涵则是所指对象的各种性质。比如“老年人”的外延是：接近或大于60岁的人。我们可以用年龄的模糊集合或其隶属函数表示它。内涵多种多样——包括衰老，残疾，经验丰富，长辈等等。不同的人关注的内涵不同。如果知识足够，通过外延可以推导出各种内涵。

什么是隶属函数？对于清晰集合，集合A的特征函数a(x)的取值范围是{0,1}，x属于A时， a(x)=1, 否则a(x)=0. 如果清晰集合变成模糊集合，特征函数就变成隶属函数，取值范围是[0,1]。据此，特征函数就是命题函数yj=yj(x)=“x属于θj”的真值函数(θj是使yj为真的x构成的模糊集合)，记为T(yj|x)=T(θj|x)。

根据Davidson的真值条件语义学，真值函数T(yj|x)就反映yj的语义（形式语义）。我接受这种观点。

逻辑概率是什么？公认的定义是：一句话被判断为真的概率。但是“一句话”指的是命题，命题函数，还是谓词？我认为：命题只有真值，没有逻辑概率。命题函数或谓词才有逻辑概率。比如“张三是年轻人”，这话只有真值，没有逻辑概率。如果张三是20岁，其真值是1。如果他是30岁，其真值大概是0.4，如果张三是60岁，其真值是0。命题函数“x是年轻人”或谓词”…是年轻人”才有逻辑概率。

把逻辑概率理解为集合或命题函数的概率是合理的，那就是“年轻人”的逻辑概率就是所有年轻人出现的概率之和：

yj的逻辑概率T(yj) =∑_iP(xi)T(yj|xi)

很显然，它也就是平均真值。

一个假设yj的逻辑概率不等于它的统计概率或被选择概率。比如：“非老年人”的逻辑概率很大，大于0.7，但是它被选择的概率很小。永真句的逻辑概率是1，但是它被选择的概率几乎是0. 这也是为什么我用T表示逻辑概率，而用P表示统计概率。同样用P就会导致很多混乱。另外，统计概率是归一化的，而逻辑概率不是归一化。考虑下面可选择的关于人的年龄的标签：“小孩”，“大人”，“年轻人”，“未成年人”，“成年人”，“中年人”，“老年人”。它们的逻辑概率相加肯定大于1，因为“成年人”和“未成年人”的逻辑概率相加就是1.

CB公式为什么会出现悖论？因为作者没有区分命题的真值和命题函数的逻辑概率！如果区分了两者，再在按Popper的思想改进语义信息公式就简单的了。我的改进是：

语义信息量I(xi; θj) = log[命题真值/逻辑概率]

= log[T(yj|xi)/T(yj)] = log[T(θj|xi)/T(θj)],

香农信息取决于概率的提升。根据上面公式，语义信息取决于真值的提升。外延越小，逻辑概率就越小。所以也可以说语义信息取决于外延的缩小，或者说取决于描述或预测的精度提高。图1图解了上述语义信息公式。

图1. 语义信息量图解。y_j传递关于x_i的语义信息随偏差增大而减少, 偏差越大, 消息越少, 甚至是负的。

上面公式中真值函数就起到事实检验的作用。考虑卫星全球定位系统（GPS）提供的信息，时钟，温度表，秤…提供的信息。根据上式，偏差越小，信息量越大，如果偏差过大，信息量就是负的。据此，错误的预测或谎言提供负的语义信息。

现在，我们可以定义：语义信息是因外延减小或真值提升而减小的不确定性。我以前说过：语义信息是被反映的特殊性。这两个定义的是兼容的。

我曾经把提供语义信息比喻成用鱼罩子抓鱼，先验逻辑概率小就像是鱼罩子小，虽然盖住鱼困难，但是盖住了，再用手抓就容易了。如果鱼罩子很大，盖住鱼容易，再用手抓还是很困难（详见：http://www.survivor99.com/lcg/books/GIT/fromHartley8000.htm ）。

上面公式计算的是最简单的语义信息。更复杂的（比如一段话或一个图片提供的）语义信息可以看是高维空间中模糊范围提供的信息。

有人会说，光考虑外延不行，语义还包括内涵。我们度量语义信息要考虑内涵。我以为，度量外延提供的信息就行了，内涵是由事物各种属性决定的，是相对的，通过外延可以推导出内涵，没有必要另外去度量内涵信息。外延反映了形式语义。正是因为形式化，语义信息公式才具有普遍性。

4. 语义信息和香农信息、失真、以及似然函数之间的关系

P(x|θj) = P(x)T(θj|x)/T(θj)

比如，我们根据y1=“小偷是年轻人”，可以预测小偷年龄在15-30岁之间。再比如，根据GPS定位和先验知识（参看图2），可以知道当前位置在铁路或高速公路的某处。

图2. 动车上GPS定位存在误差，结合先验知识可以预测最可能位置（如红星所示）.

分析表明，当语义信道匹配香农信道，即T(yj|x)∝P(yj|x)时（对于所有j），语义互信息达最大，最大值是香农互信息。所以，香农互信息是语义互信息的上限。如果我们把香农信息看作物理学中的总功，那么语义信息就是有用功，两者之比，r=语义信息量/香农信息量，就是信息效率。

假设失真函数是d(x, y), 那么真值函数就是

T(yj|x) = exp[-d(x,yj)].

如果失真量是距离的平方，则真值函数就是正态分布（如图1所示）。如果yj是估计，即yj=”x是xj”, 则上面真值函数就变为相似函数。GPS指针指示的位置就是估计，它和实际位置之间存在相似关系。上面公式也反映失真度和相似度之间的关系。把上式带进我的语义信息公式就得到

语义信息(量) = log(1/逻辑概率)-d(x,yj)=CB信息(量)-失真（量）

我把香农的信息率失真函数R(D)推广为信息率逼真函数R(G)。 G就是给定语义信息量，R(G)表示给定G时的最小香农互信息。信息效率G/R通常小于1，仅在T(yj|x)∝P(yj|x)（对于所有j）时，两者相等。因为语义信息反映从不太真到真的逼近（参看西方哲学家对逼真度verismilitude或truthlikeness的研究：Truthlikeness (Stanford Encyclopedia of Philosophy)），所以我说R(G)是信息率逼真函数。

因为有上面语义贝叶斯公式，语义信息量也可以写成

I(x; θj) = log[P(x|θj)/P(x)]

容易看出，最大语义信息准则等价于最大似然准则。有了这种关系，我们就可以使用最大语义信息准则优化机器学习。

用真值函数作为学习函数，用最大语义信息准则优化学习函数，这个方法已经用于多标签分类，最大互信息分类，混合模型，贝叶斯确证等（参看：http://www.survivor99.com/LCG/CM/SIT44ML.htm ）。语义信息测度也能用来度量约束控制的合目的性（参看

https://blog.sciencenet.cn/home.php?mod=space&uid=2056&do=blog&id=1436435）。

5. 各种语义信息测度和语义信息理论

我不能详细介绍各种语义信息测度和理论，下面我提供相关链接并做简单介绍。

我在一个博文中介绍过Carnap和Bar-Hillel的语义信息理论：https://blog.sciencenet.cn/blog-2056-370136.html 其中有原文链接。

为克服CB悖论，Floridi提出强语义信息测度（参看:

http://survivor99.com/lcg/books/GIT/bj.htm ）。他的语义信息公式能保证永真句和矛盾句提供的信息量是0，其他语句提供的信息量是正的。但是，谎言和错误预测比永真句还糟糕，信息应该是负的。他的信息公式得不到这个结果，因为他的公式不反映事实检验，不能区分正确和错误语句。

北邮的钟义信教授在Deluca和Termini的模糊熵基础上定义了语义信息测度（参看：https://www.researchgate.net/publication/318595592_A_Theory_of_Semantic_Information ）。这个测度也不能反映事实检验。最近，因为他认为语义信息内容是不能度量的，他现在转向语义信息的哲学和信息科学的生态研究。我认为根据外延度量语义信息就够了，不需要考虑语义内涵。

我的语义信息最新研究见我主页：http://www.survivor99.com。我的有关语义信息论的更多文章见这里：http://www.survivor99.com/lcg/books/GIT/

北邮教授的文章（本文开头说的文1：https://arxiv.org/abs/2401.13387）提出自己的语义信息理论。其中思路比较清晰，文章假设标签或符号集合存在一个划分，不同的符号如果语义是等价的（比如“年轻人”和“青年人”， “happy”和”joyful”），那么就当作相同符号，把它们概率相加就得到逻辑概率。逻辑概率的熵就是语义熵。然后我们可以按经典信息论处理。但是语义信息源是未知的，就像柏拉图的理念，我们不能直接看到。文中没有提到我和钟义信教授的研究。

文2是综述文章，介绍了各种语义信息研究——大部分是西方的。提到了我的研究，引用了我一篇较早的会议短文，但是没有引用我稍早发表在同一期刊（Entropy）上的同类文章（见https://www.mdpi.com/1099-4300/25/5/802 ），没有介绍我的语义信息公式，也没有介绍钟义信教授的研究。其中除了CB公式，还介绍过一些在此基础上发展的熵公式。没有介绍其他语义信息公式。但是它介绍了不少涉及语义通信的最新研究，比如关于图像的语义失真，信息年龄的研究。

这两篇文章都介绍了信息率失真函数的推广——语义信息率失真函数Rs(D)。它就是给定失真限制时最少语义信息量。这两篇都是通信专家写的，他们比较关注含有语义信息的数据传输，而对这些数据或符号和客观事物之间的关系（真值函数）考虑不多。

6. 我的语义信息论和其他语义信息论比较

我在以前的博文中已经说过我的理论和Carnap-BarHillel理论、Floridi理论的区别（后面有链接）。大概是：1）我在香农理论技术上改进；2）要求语义信息测度反映事实检验；3）我同时使用两种概率：统计概率和逻辑概率。

我多年前提出的语义熵（我曾称之为广义熵，覆盖熵）是：

H(Y_θ)= - ∑j P(yj)logT(θj)

如果模糊集合θ1, θ2,…是不相交的，每个模糊集合有一个或数个等价标签，上面语义熵就等同于文1中的语义熵。文2中的语义熵就是CB信息，它的平均也类似于我的语义熵。不过文2中的逻辑概率不易理解，这也是因为它延续了Carnap等人的思路。

文1和文2的作者都是电子通信领域的专家，更多考虑语言文字和图像的语义信息传输问题。而我更多考虑上游问题——语义信息如何来自客观事物，涉及哲学问题较多。两种研究应该是互补的。

我的观点和文1和文2中观点主要差别或分歧是：

1. 文1和文2用一个符号表示语义，却没有说明语义是怎么来的，或如何通过统计得到。在我看来：语义（真值函数）应该来自语言的用法或定义，可以通过统计或机器学习从样本得到。

2. 我以为文1和文2提供的语义信息公式也没有克服CB信息公式存在的问题——语义信息测度不能反映事实检验。

3. 文1和文2中语义信息率失真函数Rs(D)（给定D时最小香农互信息）的定义令人费解。语义信息量Rs在我的文章中是G。 G和D类似，反映通信质量要求。为什么要最小化语义信息量？应该最大化才对啊！

我定义了R(G)函数（按他们的用法就是R(Rs)函数）。为什么要最小化R，因为R反映编码成本。为什么要最大化G，因为G反映接受者因预测而节省的平均码长。两者接近最好。用R(G)函数替代R(D)就像是用“功大于过便是德的准则”代替“无过便是德”的准则。给定G也间接给定了D，最小化香农互信息R(G)就是最大化通信效率G/R。机器学习中，我们通过样本优化语义信道，从而最大化G；应用时，我们需要最小化R，以便提高通信效率。

如果像文1和文2那样，给定D求最小语义互信息，那就要求我们最小化语义熵，也就是尽可能选择逻辑概率大的标签或语句。比如，总是用“成年人”和“非成年人”，而不用“小孩”，“年轻人”，“老年人”。这不符合Popper思想。

当然还有其他和语义信息相关的测度和理论，见我这两篇中的参考文献：

http://www.survivor99.com/lcg/cm/gtheory/index.html

http://www.survivor99.com/LCG/information/Review-Evolution/index.html

7. 关于学术交流问题

我8年前写过一篇博文：《中国信息科学（信息哲学和语义信息）研究的不幸》，发表于科学网（见https://blog.sciencenet.cn/blog-2056-957130.html ），说中国人关于信息科学的研究不比西方差，但是互不交流，互不引用，一盘散沙，在国际上影响很小。这几年有所改善（因为IS4IS会议，见http://www.intsci.ac.cn/znxshy/IS4SI/ ）。但是从语义信息论的研究看，一盘散沙的现象还存在。

中国语义信息论研究者似乎不太情愿引用本国同行的文章，更不要说在同行研究的基础上做进一步研究了。但是，有比较才能鉴别，取长补短应能促进共同进步。

Floridi在西方影响很大，批评的文章也很多。但是我们很难看到中国的学术期刊发表批评和反批评的文章；即便是比较的文章，怕也很难发表。这也是我为什么写这篇博文，而不是投稿期刊。

希望后来者能接受前人的教训，让中国的语义信息论研究在国际上产生应有的影响。

PDF全文下载：http://www.survivor99.com/lcg/语义信息-澄清和比较.pdf

欢迎加入语义通信研讨群：

转载本文请联系原作者获取授权，同时请注明本文来自鲁晨光科学网博客。
链接地址：https://blog.sciencenet.cn/blog-2056-1441657.html

上一篇：语义信息论新进展——用语义信息测度优化最大熵控制
下一篇：基于语义信息论的求解隐含变量方法——挑战流行的变分贝叶斯

收藏 IP: 99.199.191.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (5 个评论)

数据加载中...

返回顶部

鲁晨光

扫一扫，分享此博文

鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣：色觉，哲学，美学，进化论，广义信息，投资组合

博文

澄清关于语义信息的一些问题 ——兼比较各种语义信息理论

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (5 个评论)

鲁晨光

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣：色觉， 哲学， 美学， 进化论，广义信息，投资组合

博文

澄清关于语义信息的一些问题 ——兼比较各种语义信息理论

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

鲁晨光

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

鲁晨光的科学和哲学研究分享 http://blog.sciencenet.cn/u/lcguang 兴趣：色觉，哲学，美学，进化论，广义信息，投资组合

该博文允许注册用户评论请点击登录评论 (5 个评论)