CMP设计分享 http://blog.sciencenet.cn/u/accsys 没有逆向思维就没有科技原创。 不自信是科技创新的大敌。

博文

信息与信息量的本质

已有 6273 次阅读 2020-1-10 22:44 |个人分类:教学笔记|系统分类:科普集锦| bit合理性, 熵计算


 

姜咏江       

关键词:信息 信息处理 信息熵                                               

 

前言

什么是信息?时至今日仍然有很多人说不清楚。一谈到信息,常见是一大堆信息的历史,还有各家各派的观点,很少有作者自己的观点。本文想从实际通信数据计量的角度,谈谈有关信息的概念和信息如何度量问题。文中力求简单通俗的给出信息的概念,说清楚香农的信息熵度量同现今实用信息量的关系。希望此文能与读者共同探讨。

信息的概念

简单地说,信息就是事物的表现和描述

事物、表现、描述是人类最基本的一类概念。事物是指世间的万事万物。表现是事物在环境中自身发出的属性。而描述是事物之间的相互关联属性。事物之间通过表现或描述进行相互联系和作用,从而才构成了纷纭复杂的世界。表现是一种直接的形式,描述是一种间接的形式。

一切事物自身的存在总是在一定的环境内表现着,这是事物存在的一种形式,这种形式不以人们或周围的事物是否已经“感知”它的存在为客观现实。当人们或周围的事物感知某事物存在的时候,在人们或其他事物之中就形成了一种区别于被感知事物的描述,这就是信息。举个例子,某处发生了爆炸,那么其周围的环境就会以声音和光等形式将爆炸描述出来,并传递到各个能够接受的事物。由于爆炸周围有空气,故而才会以声光的形式传播。没有爆炸自身的表现,就不会有爆炸现象的描述与传播。因此人们说:“表现是信息的根本,描述是信息的长期存在形式。”

信息既不是物质,也不是精神,信息就是信息。信息依赖事物存在,事物通过信息相互关联。

信息属性与相关概念

正因为信息是表现或描述,故而,信息可以存储、复制、转化、传播、由简单到复杂地综合、从复杂到简单地分析。这些是信息的基本属性。进行信息属性方面的工作,就称为信息处理。数据体现了信息将被处理的特性,因此待处理的信息是人们常说的数据。

信息是事物的表现或描述,自然要涉及到表现或描述什么?用什么表现或描述信息?还有如何得到信息的表现与描述的问题。如何得到信息的表现或描述就是信息处理问题。回答表现和描述什么,引出了信息主体概念。回答用什么来表现和描述信息,引出了媒体的概念。

信息表现描述的对象叫信息主体,信息赖以存在的物质形态叫媒体。由信息主体或媒体都可以来划分信息的种类。例如,商业信息,战争信息,这是从信息主体方面分类的。再如,电信息,光信息,声音和文字等信息,这是从媒体方面进行分类的。

由于信息主体纷纭复杂,信息媒体多种多样,才使以往的认识难以准确给信息定义。从信息主体与信息媒体可知,信息不是物质,也不是人们的精神,而是事物关联作用的一种客观形式。主体是信息产生的根源,媒体是信息存在的形式,二者缺一不可。

信息的度量

信息的概念长期遭到的困惑,恐怕是因信息量的问题而起。信息以表现或描述的存储方式,对人类社会很有用,所以信息很早就成为了有价值的东西。特别是现代社会,信息早已经成为了可以交换的商品。商品交换需要度量信息。但由于商品交换价值的随机性,因而信息的计量也曾被左右其中了。

由于信息概念起源于通信学问题,从人类通信的角度来看,同一个消息,对受信者有知晓程度之分,故香浓前辈将信息量定义未知程度的量度。显然,这种度量信息的方法,只可以说明信息对接受者的有用程度,但因为并没有一把统一的尺子,也就不具有客观性  

度量不仅要在同一属性内进行,而且一定要有一个统一固定的尺度,这两者缺一不可。香浓的信息量度量,虽然有同一属性的前提,但缺乏统一的尺度(概率难确定),因而不能对不同的信息进行有效准确的度量。

计算机的出现,使信息的度量有了客观的,统一的尺子。由于在计算机领域中,用二进制数可以表示一切信息,因而,信息量的大小就可以用二进制数表示的位长来量度,bit就是统一的尺度。这种量度不会因人而异,不必再通过通信的方式才能度量,所以客观实在,目前被人们普遍接受了。在二进制中,表达的数码的位数是由最高位前一位基数幂2n来确定的。若一条信息是二进制数N,那么这个数的位数就是log2N,于是可定义信息量n=log2N。不难理解n就是bit数量。

由于用k进制数也可以表示任何信息(这是理论上的,实际上要寻求具体的表达方式),那么k进制数N表示信息的信息量也可以用n=logkN表示,k是大于1的整数。   

 概率信息量的解释

宇宙间的一切事物无不具有两重性,这就是确定性不确定性。信息虽然也是客观实在的东西,但充满了不确定性也是它的一个重要特征。人们最早注意到信息,是来自消息。因为各种各样的消息会引导人们的行动。特别是在战争中,消息往往会起着决定战争胜负的作用。消息有真有假,当人们已经知道某个消息之后,这个消息再传来,已经是过时的了,因而就没有对这个消息一无所知的人用处大。可见消息或信息的可用性是它们的一个重要属性。从信息对人们的可用性来考虑,同一信息对不同的接收者的作用来说,就有大有小,对于这方面度量研究,就产生了香农的信息熵的概念。

熵实质上就是概率条件下的信息接受者所得到的信息量。

由于信息对不同的接收对象D作用不同,香农就想到用事件的概率作为信息量度的依据。假如一个信息接受对象D能够用随机变x表示其构成的样本点,并以概率p(x)x传送信息。由0≤p(x)≤1,那么每一个p(x)“这个数的二进制表示就需要 -log2p(x)位数码。

从不确定的可能性理解,这个二进制数的位数到传达D的实际信息量就应该应由p(x)来确定,即为 -p(x)log2p(x)。作为表达该信息对象D的全部的信息量,应具有求和特征。于是用H表示信息接受对象D接受的全部信息量(即所谓的熵),则有二进制数表达的公式

H = -

易知同样可以得出其他进制这样的熵公式。

从香农信息量计算公式的得出,不难看出他首先使用了信息数值化方法。也就是用二进制数来表示概率,其次才找出一种熵的计算公式。虽经千变万化,最终还是以“数码的位数”来确定信息量的大小而已。

古典概型下的熵

在古典概型下,很容易证明所谓的信息熵H,就是有x个样本点的数x的位数 log2x。因为古典概率p(x)=1/x所以

    H = -

     =

=   

=    log2x

二进制编码

人们之所以采用二进制来计算信息量,是因为通信使用二进制编码,计算机也使用二进制编码。信息采用何种度量方式,取决于人们对信息的工作方式,亦即信息处理方式。当然也取决于人们对信息的量化方式。从“可能”到“必然”是人们求知认知的过程。如今人们已经准确地掌握了数字编码和通信的方法,当人们处理一个编码数据的时候,已经基本上没有了那种“不确定性”。而且真的有了错误,还能够及时纠正,因而也就无需非要与“概率”硬拉关系,除非要搞纯粹的“数学理论推导”。

统一采用二进制编码来度量信息量,直观,简单,易于量度,没有二义性,因而被人们现在的信息社会普遍接受。特别是在通信问题中,不会有人提出用bit的数量来度量,有什么不合理的地方。

结言

数字化时代,信息量的计算十分简单,只要数一数以数码方式表达的信息有多少位,就知道这个信息的信息量有多大了,不必再麻烦香农前辈。

依据信息通信和计算机的实践,各种各样的信息都可以用二进制数表达出来,而且信息处理的过程都在用bit进行计量。这种既简单又实用的信息表达与计量方式,不正反映了信息的真谛吗?过多地重复人们对信息艰苦的认识过程,并无更大的意义。







https://blog.sciencenet.cn/blog-340399-1213680.html

上一篇:限位数理论是机器计算的基石
下一篇:目前我国能不能有真正的科技原创?
收藏 IP: 115.183.231.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 00:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部