||
而我认为:作为理论基础,信息哲学是需要的,信息——包括语义信息——传输的数学理论也是需要的; 不是广义或语义信息理论作为信息科学的理论基础(或其一部分)不合适,而是钟义信的全信息理论本身存在问题。 我因此向会议提交了一篇文章《钟义信的全信息理论存在的问题》。
我把我写的有关文章发给钟义信,他发给我一篇短文作为辩解,让我在有关地方发布。全文如下:
***********************
关于“全信息理论及其在AI研究中的基础作用”的简要说明
钟义信(北京邮电大学)
引言
过去,我们只能看到西方学者提出一个又一个理论和学说,国人只有跟踪学习的份儿。现在,在如此重要的信息科学与人工智能基础理论研究领域,中国学者提出和建立的《全信息理论》引起了如此热烈的关注与研讨。认可也好,批评也好,无论如何,这都是一个很好的现象。这是中华民族文化自信正在强力复兴的表现。
为了促进学术交流,使朋友们对《全信息理论》的评论和批评更有准确的针对性,这里把建立和应用《全信息理论》的主要思路做简要而全面的说明。
一、《全信息理论》的来龙去脉
大凡信息领域的科技工作者都知道,著名的Shannon信息论的信息概念是针对通信工程的需要提出的。所以,他1948年的原始论文的题目是A mathematical Theory of Communication。在这个背景下,Shannon明确指出:通信工程与信息的语义和语用因素无关,因而可以略去。这表现了Shannon学术思想的高超。因为,一方面,作为传递(而无需理解)信息的通信工程确实不需要涉及信息的语义和语用因素,因此应当主动忽略它们;另一方面,在20世纪的40年代还没有出现“模糊集合的数学理论”,不具备研究语义和语用信息的数学工具。在这种学术背景下,建立只保留语法信息而略去语义信息和语用信息的《通信数学理论》确实是明智之举。
“全信息理论”的概念是我在20世纪80年代正式提出的,目的不是为了“完善”通信工程的理论,而是希望信息理论能够支持“人工智能”的研究。因为,人工智能的源头就是信息,而人工智能研究所需要的信息则需要信息的语义和语用因素,这样的信息才能被人工智能系统理解,而理解乃是智能的前提和基础。
问题是,怎样才能建立语义信息和语用信息的理论?
我注意到,早在1950年代,Bar-Hillel和Carnap等人就开始探讨语义信息的理论问题。不过,他们的研究几乎完全受限于Shannon统计语法信息的思路,没有深入理解语法信息与语义信息之间的联系与区别,在概念理解上和数学方法上都没有取得有益的进展。
1979年11月,我在英国伦敦帝国理工学院(Imperial College)电机工程系做访问研究的时候,看到了W. C. Morris1938年在芝加哥大学出版社出版的《符号理论基础》。书中提到:符号学由语义学、语法学和语用学构成。在我调研的文献资料中,这是“语法学、语义学、语用学”的最早出处。
他是这么表述的:Semiotics is composed of semantics (defined as the relationship of signs to what they stand for), syntactics (defined as the formal or structural relations between signs), and pragmatics (defined as the relation of signs to interpreters).
我认为,Morris的这些思想对我所追寻的新的信息理论很适用。同时我也知道,人们对于Morris的这些定义有许多不同的理解,存在许多争议。不过我也认识到,这正是发展新的信息理论的生长点:不同的理解会导致不同的新理论,不同的新理论必然在科学实践检验过程中大浪淘沙,其中合理的理论就会得到保留和发展。因此,应当深入理解语义、语法、语用这些基本定义,以期建立适用于人工智能研究的新的信息理论。
经过深入分析,我对这段话形成了这样的理解:符号的语义学研究的是“符号与其所表示的对象之间的关系”,符号的语法学研究的是“符号之间的形式(结构)关系”,符号的语用学研究的是“符号与解释者(用户)的关系”。
在这三个概念之中,语法学的含义最明确,它研究的就是符号间的结构关系;语用学的含义虽有争议,我觉得也还算比较清晰:“符号与使用者之间的关系”最重要的就是“符号对用户有什么用处(价值,效用)”。有用还是无用,是用户关注的重点。至于语义学所研究的“符号与其所表示的对象之间的关系”,比较合理的理解则应当是“符号所表示的对象究竟是什么内容”;而这个内容就应当是符号所表达的“形态”和“价值”,因为别无它物。
这样,把符号学应用到信息理论,就产生如下的认识:信息的语义(语义信息)是指信息所表示的对象内容及其名称(内容一定要有名称),信息的语法(语法信息)是指信息的形式结构,信息的语用(语用信息)是指信息对使用者(用户)而言的效用(价值)。
设想:如果用户收到的信息既有语法信息又有语义信息和语用信息,他就能了解信息所表达的形态、内容和对他的目标而言的价值,于是就能据此做出决策:若有价值(无论正负)就需要关注和应对,若无价值就无需理会。这样,用户的决策就是有根有据有道理的决策,是智能的决策。这样的信息理论就能支持人工智能的研究。
我把这样的信息定名为“全信息”,一方面是因为它是语法、语义、语用三种要素都已经齐全;另一方面是因为这样的信息可以被理解。因此,我用Comprehensive Information(而不是Complete Information)作为它的学术名称。因为,Comprehensive既有“全面,完全”的意思,又具有“理解”的意思。这才是人工智能研究所需要的信息理论。也是人类自身对信息的全面的理解。
果然,在迄今的人工智能研究(包括大语言模型)中,研究者们所沿用的信息概念都是Shannon的统计语法信息概念,导致这样的人工智能没有理解能力,幻觉频发。我也注意到,有些研究者采用了“语义向量”的概念和方法,但是,因为这样定义的“语义向量”只能反映“语义差异”而不能反映“语义”本身,所以效果也差强人意。相反,我们采用了上述的“全信息理论”,就使我们的人工智能理论具有了准确的“注意”能力和“理解”的能力,扫除了人工智能“不智能”的痼疾顽症。
这就是提出“全信息(Comprehensive Information)”概念的思考过程和应用效果。
二、《全信息》的描述与度量
关于“全信息”的度量方法,我的研究经历了一个由初期阶段不够成熟到现阶段相对成熟的过程。我知道,鲁晨光老师和其他一些朋友对我初期的度量方法提出过质疑和批评。这是正常的学术讨论,促进了我后来的思考和进步。我对此表示由衷的感谢。
这里,把我现在的“全信息度量”的思想和方法也做一个简要的说明,供学术界朋友们参考和批评。
“全信息”是一个复杂的抽象概念。作为一个有机的整体,它包含语法、语用、语义三个分量。所以,它的描述和度量不能用单纯的定量度量方法来实现,而需要采用“定性与定量相结合”的方法。
具体来说,其中
● 作为形式结构因素的语法信息具有非常具体的形态,可以通过人类的感觉器官或技术上的传感技术来定量测量,也可以用相应的数学方法来描述和度量;
● 作为价值(效用)因素的语用信息也具有具体的效用表现,可以通过一定的检验方法和测量方法来定量测定,因而也可以用数学方法来描述和度量;
● 但是,作为内容因素的语义信息则是抽象的概念,既不可能通过感觉器官来定量感受内容,也不可能通过检验的方法来定量测定内容,只能通过抽象的感悟来定性体会和描述。
可见,语法信息和语用信息可以定量描述与度量,而语义信息只能定性描述。
也许有人会提出疑问:既然不能定量描述,那样的语义信息能有什么意义呢?
其实,语义信息大有用处,特别对于人工智能的理解能力来说,语义信息是根本性基础。它之所以不需要定量描述,就是因为它的作用本来就是为了理解抽象的信息“内容”,而不是为了传输。而所谓信息所表达的“内容”,就是指信息所表示的对象具有什么形态以及有什么效用(所谓对象的内容,就是指对象内部所容纳的因素:形态因素和效用因素)。
所以,某个语义信息所表示的对象的“内容”可以定义为该对象的“形态”(语法信息)和“效用”(语用信息)两者所构成的偶对的名称。
如果用符号来表示,比如,若用X表示对象的“形态”(语法信息),用Y表示对象的“内容名称”(语义信息),用Z表示对象的“效用”,就可以得到如下的重要关系:
Y = l (X, Z) (1)
其中的符号“l”就表示映射与命名的逻辑算子(抽象感悟与命名的过程)。
公式(1)表明:语义信息是语法信息和语用信息两者的代表,从而也可以认为:语义信息是全信息的代表(即:知道了语义信息,就知道了语法信息和语用信息,因而也知道了全信息)。
这就是复杂对象(如“全信息”)的描述方式:定性与定量相结合的描述方式。
根据公式(1),就可以建立“由客体信息S刺激而生成全信息”的感知模型。
模型显示:全信息的生成分为三个步骤:当有外部对象的客体信息(反映对象的状态及其变化方式)输入时,
(1)全信息的语法信息X可以通过传感系统获得;
(2)全信息的语用信息的获得需要分为两种情况:
(2-1)若输入的客体信息S是过去曾经处理过的对象,记忆库里就会存储着相应的语法信息X及与之对应的语用信息Z所构成的偶对(X, Z)。于是,可以用X为检索子对记忆库的偶对集合{X, Z}进行检索。一旦X与{X, Z}中某个具体偶对的X=xk匹配,那么,xk所对应的Z=zk就是检索到的语用信息。
(2-2)若S是新对象,这时就可通过计算X与系统目标G的相关性测度Z=cor(X, G)获得(见随后的说明);
(3)语义信息则通过新生成的{X, Z}向语义空间的映射和命名获得。
说明:模型中的“计算”是计算语法信息X与系统目标G之间的相关度:若相关度为零,表示这个语法信息(它是客体信息的直接反映,代表了客体)与系统追求的目标无关;若相关度为正(负),表示这个语法信息(客体)有利(害)于系统目标。所以,这个计算的结果就等效于计算了这个客体的语用信息。
可见,公式(1)既是语义信息的定义,也是语义信息的生成机制。而上述整个模型就是全信息的生成机制。
三、《全信息理论》与AI研究
如上所说,全信息是语法信息、语用信息、语义信息的有机整体,而根据全信息的生成机制可以看出,语义信息是全信息的代表。因此,可以通过语义信息与AI的关系体现《全信息理论》对AI研究的重要意义。
上面也已提到,语义信息对人工智能的研究的作用是“理解信息内容”,从而使人工智能的决策实现智能化。
所谓“理解了信息内容”,就是了解了信息所表示的对象的语法信息(即了解了对象的“形态”,从而不会和其它形态的对象相混淆)及与其相应的语用信息(即了解了对象的“效用”,从而知道应当如何对待这个对象:是应当利用它?还是应当抑制它?还是不予理会它?)。这就是语义信息对人工智能“理解能力”的重要作用。
反而观之,如今在全球风行的大语言模型(Large Language Model, LLM)之所以理解能力十分低下,从而不可解释,就是因为LLM只利用了语法信息。
为了克服这个致命的顽症,他们采取了一系列的补救措施(打补丁)。包括:
(1)为了找回原先丢掉了的语义信息,采用了基于神经网络的Transformer架构,其中包括词的位置编码、高维的词向量(也叫词嵌入)、多头自注意力、提示工程、以及中间编码等等;
(2)为了找回原先丢掉了的语用信息,采用了大规模的预训练(强化学习训练)、人工反馈、人工对齐等等。
不过,很遗憾,所有这些极其繁琐的措施,都无法完整地找回原先丢掉的语义信息和语用信息。可见,LLM先丢掉语义信息和语用信息,随后又不得不通过大量打补丁的办法去找回语义信息和语用信息:兜了一个特大的圈圈,费了特别大的力气,做了很多冤枉功夫,最终还是无法回到“全信息”的境界,以致大大影响了它的“理解能力”。
更加雪上加霜的是,LLM采取了“概率方法”来生成答案,而概率方法本身是只根据统计样本的形式特征来做统计的,根本不考虑样本的内容。所以,它不但无助于LLM对信息内容的理解,反而为了实现概率规律的可信性而要求统计样本满足“遍历性”(要求样本规模几乎无限大),使得LLM不得不走向极度地消耗各种资源的“大”模型!可以认为,大模型的“大”是概率方法的要求,Scaling Law是概率方法绑架的结果,并非有意的创造。
总之,《全信息理论》的提出,不是为了完善通信的理论,而是为了支持人工智能研究的需要,支持人工智能的理解能力,扫除人工智能“不智能”的魔咒。
四、后语
以“全信息”为源头的人工智能研究是当今时代科学研究的战略聚焦点。没有“全信息理论”支持的人工智能很难通过打补丁的办法实现智能。而人工智能是信息科学的高级篇章,因此,《全信息理论》是包括人工智能在内的整个信息科学的基础理论。
欢迎各界朋友积极关注《全信息理论》,提出批评意见,使它不断发展和完善。
****************
该文说明了用全信息理论作为信息科学的理论基础的理由,也解释了为什么不再度量语义信息。但是,他仍然使用和其语义信息公式类似的公式度量语法信息和语用信息,这是否合理?怎么解决说对说错信息一样多的问题?如何用这样的信息测度优化机器学习,比如作为信息准则优化预测模型?这些问题仍然有待解决。
无论如何,能够公平对话就是进步!
也欢迎别人对我的语义信息G理论评头论足。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-5 20:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社