||
1. 序言
信息论是优化信息传输的数学理论,香农信息论是代表。关于信息的更广范围研究,我们称之为信息科学。我研究语义信息论30多年,现在终于看到有更多人加入语义信息论研究。在我之前有北邮的吴伟陵教授和钟义信教授。钟义信教授最有名气,不过他研究范围更广的信息科学和哲学较多,研究信息的数学较少。我最近看了两篇介绍语义信息论的文章, 一篇是北邮专家写的研究文章:《语义通信的数学理论》(后面简称文1), 英文见 https://arxiv.org/abs/2401.13387 ;另一篇是清华教授为主写的综述:《语义通信:理论发展综述》(文2),英文见:https://www.mdpi.com/1099-4300/26/2/102 。我在微信群里介绍了不少文献,包括这两篇和我发表的语义信息论用于机器学习的文章(见http://www.survivor99.com/lcg/CM/Recent.html )。从这两篇文章和群友的对话看,我觉得很多人对语义信息论涉及的一些问题还不太了解。这些问题比如:哪些信息是语义信息?语义信息和香农信息的主要区别是什么?如何用数学描述语义,并把语义带进语义信息公式?逻辑概率是什么?如何计算逻辑概率?真值和失真之间的关系如何?语义信息和失真之间的关系是怎样的……? 为此,我写了这篇博文,希望能通俗地讲清这些问题;另外,我也想把各种语义信息理论放在一起比较,以便大家取长补短,进一步改进。
2. 从香农信息到语义信息
什么是香农信息?香农信息,比如y提供关于x的信息,是因为yj提高x发生的条件概率P(x|yj),从而提供关于x的信息, 信息量是
I(xi; yj) = log[P(x|yj)/P(x)]
这是香农互信息的核心部分,其平均就是香农互信息。香农称信息是减少的不确定性。按照香农的互信息计算公式,可以说:信息是通过概率提升而减少的不确定性。
香农信息论在通信领域取得巨大成功,但是香农定义的信息到现在也没有被计算机等领域的人接受。如果你翻开美国计算机科学教科书,你会发现信息定义完全不同。一种常见的定义是:信息是结构化的有用数据。而按常识或某些大辞典定义,信息就是我们以前不知道的东西,要么是直接观察到的,要么是各种疑问句(谁,哪里,什么时候,为什么,干什么…)的回答提供的。为了减少矛盾,大家称日常语言说的信息是语义信息,而称香农信息是统计信息。
语义信息也不限于语言提供的信息。因为时钟、GPS指针、秤,股市指数,红绿定,电池正负极…, 也都可以看作是疑问的回答,也和命题一样存在真假,所以它们也提供语义信息(参看哲学家Floridi的解释:https://plato.stanford.edu/entries/information-semantic/ )。我赞成这种看法。现在机器学习领域的研究者经常使用“语义信息”一词,他们认为各种数据(包括语音,图像)——只要能代表什么,回答什么,或和什么相似——也都提供语义信息。
在香农发表著名文章不久,Weaver就提出通信的三个水平,分别涉及:1)编码传输问题;2)语义问题;3)效用问题。随后不久,Carnap和Bar-Hillel就提出一个语义信息公式(简称CB公式):
语义信息量= log(1/逻辑概率)
这个公式贯彻了Popper的思想——逻辑概率越小,信息量越大(见Popper1932年的著作《科学发现的逻辑》)。有人问:按CB公式,错的命题特别是矛盾句,逻辑概率小,难道它们能提供更多语义信息?有人因此说CB公式导致语义信息悖论。但是Popper还补充,一个假设,不光要逻辑概率小,还要经得起检验,才能传递更多信息。然而, 上面公式不能反映事实检验。如何把语义带进信息公式,并能反映事实检验?这是需要解决的问题!
3. 语义,真值,逻辑概率和事实检验
概念的语义包含外延和内涵,外延就是所指或所指的范围,英文是denotation。内涵则是所指对象的各种性质。比如“老年人”的外延是:接近或大于60岁的人。我们可以用年龄的模糊集合或其隶属函数表示它。内涵多种多样——包括衰老,残疾,经验丰富,长辈等等。不同的人关注的内涵不同。如果知识足够,通过外延可以推导出各种内涵。
什么是隶属函数?对于清晰集合,集合A的特征函数a(x)的取值范围是{0,1},x属于A时, a(x)=1, 否则a(x)=0. 如果清晰集合变成模糊集合,特征函数就变成隶属函数, 取值范围是[0,1]。据此,特征函数就是命题函数yj=yj(x)=“x属于θj”的真值函数(θj是使yj为真的x构成的模糊集合),记为T(yj|x)=T(θj|x)。
根据Davidson的真值条件语义学,真值函数T(yj|x)就反映yj的语义(形式语义)。我接受这种观点。
逻辑概率是什么?公认的定义是:一句话被判断为真的概率。但是“一句话”指的是命题,命题函数,还是谓词?我认为:命题只有真值,没有逻辑概率。命题函数或谓词才有逻辑概率。比如“张三是年轻人”,这话只有真值,没有逻辑概率。 如果张三是20岁, 其真值是1。如果他是30岁,其真值大概是0.4, 如果张三是60岁,其真值是0。命题函数“x是年轻人”或谓词”…是年轻人”才有逻辑概率。
把逻辑概率理解为集合或命题函数的概率是合理的,那就是“年轻人”的逻辑概率就是所有年轻人出现的概率之和:
yj的逻辑概率T(yj) =∑i P(xi)T(yj|xi)
很显然,它也就是平均真值。
一个假设yj的逻辑概率不等于它的统计概率或被选择概率。比如:“非老年人”的逻辑概率很大,大于0.7,但是它被选择的概率很小。永真句的逻辑概率是1, 但是它被选择的概率几乎是0. 这也是为什么我用T表示逻辑概率,而用P表示统计概率。同样用P就会导致很多混乱。另外,统计概率是归一化的,而逻辑概率不是归一化。考虑下面可选择的关于人的年龄的标签:“小孩”,“大人”,“年轻人”,“未成年人”,“成年人”,“中年人”,“老年人”。它们的逻辑概率相加肯定大于1,因为“成年人”和“未成年人”的逻辑概率相加就是1.
CB公式为什么会出现悖论?因为作者没有区分命题的真值和命题函数的逻辑概率!如果区分了两者,再在按Popper的思想改进语义信息公式就简单的了。我的改进是:
语义信息量I(xi; θj) = log[命题真值/逻辑概率]
= log[T(yj|xi)/T(yj)] = log[T(θj|xi)/T(θj)],
香农信息取决于概率的提升。根据上面公式,语义信息取决于真值的提升。外延越小,逻辑概率就越小。所以也可以说语义信息取决于外延的缩小,或者说取决于描述或预测的精度提高。图1图解了上述语义信息公式。
图1. 语义信息量图解。yj传递关于xi的语义信息随偏差增大而减少, 偏差越大, 消息越少, 甚至是负的。
上面公式中真值函数就起到事实检验的作用。考虑卫星全球定位系统(GPS)提供的信息,时钟,温度表,秤…提供的信息。根据上式,偏差越小,信息量越大,如果偏差过大,信息量就是负的。据此,错误的预测或谎言提供负的语义信息。
现在,我们可以定义:语义信息是因外延减小或真值提升而减小的不确定性。我以前说过:语义信息是被反映的特殊性。这两个定义的是兼容的。
我曾经把提供语义信息比喻成用鱼罩子抓鱼,先验逻辑概率小就像是鱼罩子小,虽然盖住鱼困难,但是盖住了,再用手抓就容易了。如果鱼罩子很大,盖住鱼容易,再用手抓还是很困难(详见:http://www.survivor99.com/lcg/books/GIT/fromHartley8000.htm )。
上面公式计算的是最简单的语义信息。更复杂的(比如一段话或一个图片提供的)语义信息可以看是高维空间中模糊范围提供的信息。
有人会说,光考虑外延不行, 语义还包括内涵。我们度量语义信息要考虑内涵。我以为,度量外延提供的信息就行了,内涵是由事物各种属性决定的,是相对的,通过外延可以推导出内涵,没有必要另外去度量内涵信息。外延反映了形式语义。正是因为形式化,语义信息公式才具有普遍性。
4. 语义信息和香农信息、失真、以及似然函数之间的关系
传递香农信息需要香农信道P(y|x),传递语义信息需要语义信道——那就是一组概念的外延——可用一组真值函数表示:T(yj|x), j=1,2,…,发送者和接受者都知道。语义通信的最大好处是:收信者不需要知道香农信道P(y|x)——告诉你你也记不得, 而根据概念外延也能得到概率预测:P(x|θj)= P(x|yj是真的). 通过我提出的语义贝叶斯公式,从P(x)和真值函数T(θj|x)可以得到似然函数或概率预测:
P(x|θj) = P(x)T(θj|x)/T(θj)
比如,我们根据y1=“小偷是年轻人”,可以预测小偷年龄在15-30岁之间。再比如,根据GPS定位和先验知识(参看图2),可以知道当前位置在铁路或高速公路的某处。
图2. 动车上GPS定位存在误差,结合先验知识可以预测最可能位置(如红星所示).
分析表明, 当语义信道匹配香农信道, 即T(yj|x)∝P(yj|x)时(对于所有j), 语义互信息达最大,最大值是香农互信息。所以, 香农互信息是语义互信息的上限。如果我们把香农信息看作物理学中的总功,那么语义信息就是有用功, 两者之比,r=语义信息量/香农信息量,就是信息效率。
假设失真函数是d(x, y), 那么真值函数就是
T(yj|x) = exp[-d(x,yj)].
如果失真量是距离的平方,则真值函数就是正态分布(如图1所示)。如果yj是估计,即yj=”x是xj”, 则上面真值函数就变为相似函数。GPS指针指示的位置就是估计,它和实际位置之间存在相似关系。上面公式也反映失真度和相似度之间的关系。把上式带进我的语义信息公式就得到
语义信息(量) = log(1/逻辑概率)-d(x,yj)=CB信息(量)-失真(量)
我把香农的信息率失真函数R(D)推广为信息率逼真函数R(G)。 G就是给定语义信息量,R(G)表示给定G时的最小香农互信息。信息效率G/R通常小于1,仅在T(yj|x)∝P(yj|x)(对于所有j)时, 两者相等。因为语义信息反映从不太真到真的逼近(参看西方哲学家对逼真度verismilitude或truthlikeness的研究:Truthlikeness (Stanford Encyclopedia of Philosophy)), 所以我说R(G)是信息率逼真函数。
因为有上面语义贝叶斯公式,语义信息量也可以写成
I(x; θj) = log[P(x|θj)/P(x)]
容易看出,最大语义信息准则等价于最大似然准则。有了这种关系,我们就可以使用最大语义信息准则优化机器学习。
用真值函数作为学习函数,用最大语义信息准则优化学习函数,这个方法已经用于多标签分类,最大互信息分类,混合模型,贝叶斯确证等(参看:http://www.survivor99.com/LCG/CM/SIT44ML.htm )。语义信息测度也能用来度量约束控制的合目的性(参看
https://blog.sciencenet.cn/home.php?mod=space&uid=2056&do=blog&id=1436435)。
5. 各种语义信息测度和语义信息理论
我不能详细介绍各种语义信息测度和理论,下面我提供相关链接并做简单介绍。
我在一个博文中介绍过Carnap和Bar-Hillel的语义信息理论:https://blog.sciencenet.cn/blog-2056-370136.html 其中有原文链接。
为克服CB悖论,Floridi提出强语义信息测度(参看:
http://survivor99.com/lcg/books/GIT/bj.htm )。他的语义信息公式能保证永真句和矛盾句提供的信息量是0, 其他语句提供的信息量是正的。但是,谎言和错误预测比永真句还糟糕,信息应该是负的。他的信息公式得不到这个结果,因为他的公式不反映事实检验,不能区分正确和错误语句。
北邮的钟义信教授在Deluca和Termini的模糊熵基础上定义了语义信息测度(参看:https://www.researchgate.net/publication/318595592_A_Theory_of_Semantic_Information )。 这个测度也不能反映事实检验。最近,因为他认为语义信息内容是不能度量的,他现在转向语义信息的哲学和信息科学的生态研究。我认为根据外延度量语义信息就够了,不需要考虑语义内涵。
我的语义信息最新研究见我主页:http://www.survivor99.com。 我的有关语义信息论的更多文章见这里:http://www.survivor99.com/lcg/books/GIT/
北邮教授的文章(本文开头说的文1:https://arxiv.org/abs/2401.13387)提出自己的语义信息理论。其中思路比较清晰,文章假设标签或符号集合存在一个划分,不同的符号如果语义是等价的(比如“年轻人”和“青年人”, “happy”和”joyful”),那么就当作相同符号,把它们概率相加就得到逻辑概率。逻辑概率的熵就是语义熵。然后我们可以按经典信息论处理。但是语义信息源是未知的,就像柏拉图的理念,我们不能直接看到。文中没有提到我和钟义信教授的研究。
文2是综述文章,介绍了各种语义信息研究——大部分是西方的。提到了我的研究,引用了我一篇较早的会议短文,但是没有引用我稍早发表在同一期刊(Entropy)上的同类文章(见https://www.mdpi.com/1099-4300/25/5/802 ),没有介绍我的语义信息公式,也没有介绍钟义信教授的研究。其中除了CB公式,还介绍过一些在此基础上发展的熵公式。没有介绍其他语义信息公式。但是它介绍了不少涉及语义通信的最新研究,比如关于图像的语义失真,信息年龄的研究。
这两篇文章都介绍了信息率失真函数的推广——语义信息率失真函数Rs(D)。它就是给定失真限制时最少语义信息量。这两篇都是通信专家写的,他们比较关注含有语义信息的数据传输,而对这些数据或符号和客观事物之间的关系(真值函数)考虑不多。
6. 我的语义信息论和其他语义信息论比较
我在以前的博文中已经说过我的理论和Carnap-BarHillel理论、Floridi理论的区别(后面有链接)。大概是:1)我在香农理论技术上改进;2)要求语义信息测度反映事实检验;3)我同时使用两种概率:统计概率和逻辑概率。
我多年前提出的语义熵(我曾称之为广义熵,覆盖熵)是:
H(Yθ)= - ∑j P(yj)logT(θj)
如果模糊集合θ1, θ2,…是不相交的,每个模糊集合有一个或数个等价标签,上面语义熵就等同于文1中的语义熵。文2中的语义熵就是CB信息,它的平均也类似于我的语义熵。不过文2中的逻辑概率不易理解,这也是因为它延续了Carnap等人的思路。
文1和文2的作者都是电子通信领域的专家,更多考虑语言文字和图像的语义信息传输问题。而我更多考虑上游问题——语义信息如何来自客观事物,涉及哲学问题较多。两种研究应该是互补的。
我的观点和文1和文2中观点主要差别或分歧是:
1. 文1和文2用一个符号表示语义,却没有说明语义是怎么来的,或如何通过统计得到。在我看来:语义(真值函数)应该来自语言的用法或定义,可以通过统计或机器学习从样本得到。
2. 我以为文1和文2提供的语义信息公式也没有克服CB信息公式存在的问题——语义信息测度不能反映事实检验。
3. 文1和文2中语义信息率失真函数Rs(D)(给定D时最小香农互信息)的定义令人费解。语义信息量Rs在我的文章中是G。 G和D类似,反映通信质量要求。为什么要最小化语义信息量?应该最大化才对啊!
我定义了R(G)函数(按他们的用法就是R(Rs)函数)。为什么要最小化R,因为R反映编码成本。为什么要最大化G, 因为G反映接受者因预测而节省的平均码长。两者接近最好。用R(G)函数替代R(D)就像是用“功大于过便是德的准则”代替“无过便是德”的准则。给定G也间接给定了D,最小化香农互信息R(G)就是最大化通信效率G/R。 机器学习中,我们通过样本优化语义信道,从而最大化G;应用时,我们需要最小化R,以便提高通信效率。
如果像文1和文2那样,给定D求最小语义互信息,那就要求我们最小化语义熵,也就是尽可能选择逻辑概率大的标签或语句。比如,总是用“成年人”和“非成年人”,而不用“小孩”,“年轻人”,“老年人”。这不符合Popper思想。
当然还有其他和语义信息相关的测度和理论,见我这两篇中的参考文献:
http://www.survivor99.com/lcg/cm/gtheory/index.html
http://www.survivor99.com/LCG/information/Review-Evolution/index.html
7. 关于学术交流问题
我8年前写过一篇博文:《中国信息科学(信息哲学和语义信息)研究的不幸》,发表于科学网(见https://blog.sciencenet.cn/blog-2056-957130.html ),说中国人关于信息科学的研究不比西方差, 但是互不交流,互不引用,一盘散沙,在国际上影响很小。这几年有所改善(因为IS4IS会议,见http://www.intsci.ac.cn/znxshy/IS4SI/ )。但是从语义信息论的研究看,一盘散沙的现象还存在。
中国语义信息论研究者似乎不太情愿引用本国同行的文章,更不要说在同行研究的基础上做进一步研究了。但是,有比较才能鉴别,取长补短应能促进共同进步。
Floridi在西方影响很大,批评的文章也很多。但是我们很难看到中国的学术期刊发表批评和反批评的文章;即便是比较的文章,怕也很难发表。这也是我为什么写这篇博文,而不是投稿期刊。
希望后来者能接受前人的教训,让中国的语义信息论研究在国际上产生应有的影响。
PDF全文下载:http://www.survivor99.com/lcg/语义信息-澄清和比较.pdf
欢迎加入语义通信研讨群:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 22:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社