|||
姜咏江
关键词:信息 信息处理 信息熵
前言
什么是信息?时至今日仍然有很多人说不清楚。一谈到信息,常见是一大堆信息的历史,还有各家各派的观点,很少有作者自己的观点。本文想从实际通信数据计量的角度,谈谈有关信息的概念和信息如何度量问题。文中力求简单通俗的给出信息的概念,说清楚香农的信息熵度量同现今实用信息量的关系。希望此文能与读者共同探讨。
信息的概念
简单地说,信息就是事物的表现和描述。
事物、表现、描述是人类最基本的一类概念。事物是指世间的万事万物。表现是事物在环境中自身发出的属性。而描述是事物之间的相互关联属性。事物之间通过表现或描述进行相互联系和作用,从而才构成了纷纭复杂的世界。表现是一种直接的形式,描述是一种间接的形式。
一切事物自身的存在总是在一定的环境内表现着,这是事物存在的一种形式,这种形式不以人们或周围的事物是否已经“感知”它的存在为客观现实。当人们或周围的事物感知某事物存在的时候,在人们或其他事物之中就形成了一种区别于被感知事物的描述,这就是信息。举个例子,某处发生了爆炸,那么其周围的环境就会以声音和光等形式将爆炸描述出来,并传递到各个能够接受的事物。由于爆炸周围有空气,故而才会以声光的形式传播。没有爆炸自身的表现,就不会有爆炸现象的描述与传播。因此人们说:“表现是信息的根本,描述是信息的长期存在形式。”
信息既不是物质,也不是精神,信息就是信息。信息依赖事物存在,事物通过信息相互关联。
信息属性与相关概念
正因为信息是表现或描述,故而,信息可以存储、复制、转化、传播、由简单到复杂地综合、从复杂到简单地分析。这些是信息的基本属性。进行信息属性方面的工作,就称为信息处理。数据体现了信息将被处理的特性,因此待处理的信息是人们常说的数据。
信息是事物的表现或描述,自然要涉及到表现或描述什么?用什么表现或描述信息?还有如何得到信息的表现与描述的问题。如何得到信息的表现或描述就是信息处理问题。回答表现和描述什么,引出了信息主体概念。回答用什么来表现和描述信息,引出了媒体的概念。
信息表现描述的对象叫信息主体,信息赖以存在的物质形态叫媒体。由信息主体或媒体都可以来划分信息的种类。例如,商业信息,战争信息,这是从信息主体方面分类的。再如,电信息,光信息,声音和文字等信息,这是从媒体方面进行分类的。
由于信息主体纷纭复杂,信息媒体多种多样,才使以往的认识难以准确给信息定义。从信息主体与信息媒体可知,信息不是物质,也不是人们的精神,而是事物关联作用的一种客观形式。主体是信息产生的根源,媒体是信息存在的形式,二者缺一不可。
信息的度量
信息的概念长期遭到的困惑,恐怕是因信息量的问题而起。信息以表现或描述的存储方式,对人类社会很有用,所以信息很早就成为了有价值的东西。特别是现代社会,信息早已经成为了可以交换的商品。商品交换需要度量信息。但由于商品交换价值的随机性,因而信息的计量也曾被左右其中了。
由于信息概念起源于通信学问题,从人类通信的角度来看,同一个消息,对受信者有知晓程度之分,故香浓前辈将信息量定义为“未知程度”的量度。显然,这种度量信息的方法,只可以说明信息对接受者的“有用程度”,但因为并没有一把统一的尺子,也就不具有“客观性”。
度量不仅要在同一属性内进行,而且一定要有一个统一固定的尺度,这两者缺一不可。香浓的信息量度量,虽然有同一属性的前提,但缺乏统一的尺度(概率难确定),因而不能对不同的信息进行有效准确的度量。
计算机的出现,使信息的度量有了客观的,统一的尺子。由于在计算机领域中,用二进制数可以表示一切信息,因而,信息量的大小就可以用二进制数表示的位长来量度,bit就是统一的尺度。这种量度不会因人而异,不必再通过通信的方式才能度量,所以客观实在,目前被人们普遍接受了。在二进制中,表达的数码的位数是由最高位前一位基数幂2n来确定的。若一条信息是二进制数N,那么这个数的位数就是log2N,于是可定义信息量n=log2N。不难理解n就是bit数量。
由于用k进制数也可以表示任何信息(这是理论上的,实际上要寻求具体的表达方式),那么k进制数N表示信息的信息量也可以用n=logkN表示,k是大于1的整数。
概率信息量的解释
宇宙间的一切事物无不具有两重性,这就是“确定性”和“不确定性”。信息虽然也是客观实在的东西,但充满了不确定性也是它的一个重要特征。人们最早注意到信息,是来自“消息”。因为各种各样的消息会引导人们的行动。特别是在战争中,消息往往会起着决定战争胜负的作用。消息有真有假,当人们已经知道某个消息之后,这个消息再传来,已经是过时的了,因而就没有对这个消息一无所知的人用处大。可见消息或信息的“可用性”是它们的一个重要属性。从信息对人们的可用性来考虑,同一信息对不同的接收者的作用来说,就有大有小,对于这方面度量研究,就产生了香农的信息熵的概念。
熵实质上就是概率条件下的信息接受者所得到的信息量。
由于信息对不同的接收对象D作用不同,香农就想到用事件的概率作为信息量度的依据。假如一个信息接受对象D能够用随机变量x表示其构成的样本点,并以概率p(x)向x传送信息。由于0≤p(x)≤1,那么每一个p(x)“这个数”的二进制表示就需要 -log2p(x)位数码。
从不确定的可能性理解,这个二进制数的位数到传达到D的实际信息量就应该应由p(x)来确定,即为 -p(x)log2p(x)。作为表达该信息对象D的全部的信息量,应具有求和特征。于是用H表示信息接受对象D接受的全部信息量(即所谓的熵),则有二进制数表达的公式
H = -
易知同样可以得出其他进制这样的熵公式。
从香农信息量计算公式的得出,不难看出他首先使用了信息数值化方法。也就是用二进制数来表示概率,其次才找出一种熵的计算公式。虽经千变万化,最终还是以“数码的位数”来确定信息量的大小而已。
古典概型下的熵
在古典概型下,很容易证明所谓的信息熵H,就是有x个样本点的数x的位数 log2x。因为古典概率p(x)=1/x,所以
H = -
=
=
= log2x
二进制编码
人们之所以采用二进制来计算信息量,是因为通信使用二进制编码,计算机也使用二进制编码。信息采用何种度量方式,取决于人们对信息的工作方式,亦即信息处理方式。当然也取决于人们对信息的量化方式。从“可能”到“必然”是人们求知认知的过程。如今人们已经准确地掌握了数字编码和通信的方法,当人们处理一个编码数据的时候,已经基本上没有了那种“不确定性”。而且真的有了错误,还能够及时纠正,因而也就无需非要与“概率”硬拉关系,除非要搞纯粹的“数学理论推导”。
统一采用二进制编码来度量信息量,直观,简单,易于量度,没有二义性,因而被人们现在的信息社会普遍接受。特别是在通信问题中,不会有人提出用bit的数量来度量,有什么不合理的地方。
结言
数字化时代,信息量的计算十分简单,只要数一数以数码方式表达的信息有多少位,就知道这个信息的信息量有多大了,不必再麻烦香农前辈。
依据信息通信和计算机的实践,各种各样的信息都可以用二进制数表达出来,而且信息处理的过程都在用bit进行计量。这种既简单又实用的信息表达与计量方式,不正反映了信息的真谛吗?过多地重复人们对信息艰苦的认识过程,并无更大的意义。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 11:05
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社