||
我们用机器学习的语言解释语义通信,说明传递语义信息的载体就是模糊分类标签。
机器学习中通常假设标签y提供关于实例x的信息。一个样例是一个数据对(x, y), 一个样本S包含很多样例,即S={(xk, yk), k=1,2,…, N}。机器学习的基本原理是:首先我们用样本或样本分布,比如P(x, y),训练学习函数——包括似然函数,Logistic函数, 相似函数,隶属函数和真值函数。然后用训练好的学习函数构造分类函数y=f(x), 以便以后为x选择标签y, 用y传递关于x的语义信息。
我们以自然语言传递人的年龄信息为例。设年龄为x,年龄的模糊分类标签是y,y是“幼儿“、”小孩”、“少年人”、“年轻人”、“未成年人“、“成年人”…中的一个。语义通信就是使用这些标签通信,收信人根据标签的语义(而不是定制的编码本)预测不同年龄x发生的概率。
语义信道包含在大家共有的知识中(可用一组真值函数表示),是发信人和收信人早就知道的,或者说是通过以前学习得到的。语义通信模型和香农通信模型的区别如图2所示。其中香农信道和语义信道之间的双向箭头表示两者相互匹配。
图2 语义通信模型——用语义信道(一组真值函数)代替失真函数作为约束
和经典通信不同的是:
1) 用语义信道或一组真值函数代替了失真函数作为约束。标签和实例的对应关系(编码表)是不确定的或模糊的,比如10岁,20岁,30岁使“年轻人”为真的程度不同,给定x, 我们选择尽可能真(真值接近1)且精度尽可能高(逻辑概率小)的标签。
2) 收信人根据标签的语义(形式语义)或外延解码,即做概率预测,而不是根据定制的编码本解码。
3) 我们的知识就是共用编码解码表,其中对应关系中少数是人为定义的(比如大于或等于18岁的人是成年人),大多数是在语言使用过程中自然形成的,如维特根斯坦说的“语义在于用法”【52】。后面我们会说明如何从用法即样本得到真值函数。
4) 实例可能以概率分布的形式出现——因为发信人看不清或测不准,他可能因此选择更加模糊的标签。比如说“小偷不是小孩”,“明天有小到中雨”。
优化语义通信方法主要有两种:
l 给定香农信道,让语义信道匹配香农信道,从而最大化语义信息;
l 给定语义信道,让香农信道匹配语义信道,从而最小化香农信息,提搞通信效率。
色觉传递色光的信息是类似的。色光是实例, 色觉是色光的符号或标签。 色觉通信也是标签通信。语义信道就是色光和色觉之间的对应关系,由分辨率函数或混淆概率函数确定。GPS定位圆圈、时钟指针、温度表读数……都可以看作是实例的符号或标签。
用一个用系动词“是”构成的命题, 比如“这是老年人”,就等价于一个标签“老年人”。一个有主谓宾结构的语句可看作三个标签的复合,比如“年轻人帮助老年人”,其外延是三个集合的直集中的模糊子集。所以,日常语言通信也可以看作是标签通信。
语义通信的本质是根据标签的外延预测(比如根据小偷是“年轻人”预测小偷在不同年龄上的概率分布),而不是根据条件概率预测。预测可能不准,因而需要事实检验。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-7 06:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社