CMP设计分享 http://blog.sciencenet.cn/u/accsys 没有逆向思维就没有科技原创。 不自信是科技创新的大敌。

博文

信息与信息量的现代定义

已有 10636 次阅读 2010-1-29 07:42 |个人分类:教学点滴|系统分类:科研笔记| 信息熵, 信息定义, 信息量定义

姜咏江信息的定义:信息是事物的表现或描述。
 
姜咏江信息量的定义:信息量是表现或描述信息的物质形态基本元素的数量。
 
我在若干年前就给信息的定义做了如上的表述,并将这样的表述写在了我所著的书中。近期在网上见到信息与信息量的讨论,遂在博客上写了几篇博文(见下面附录),其中最重要的解释了香浓的信息量来源和信息熵表达的意义。后又见到“百度”上有“信息的现代定义”词条,并且未有内容,就将“信息是事物的表现或描述”写上了。后见登了出来,想到应将信息量的定义表述得更通俗一些,于是给出:信息量是表现或描述信息的物质形态基本元素的数量。
 
我之所以这样给信息量定义,是因为考虑到度量的基本法则:(1)有基本元素,其中有尺度;(2)无论如何,度量的结果有限,不然就不可度量;(3)不同质,不可度量。
 
有兴趣,就来讨论吧。
 
2010-1-29
 
[附录1]
 
信息是简单还是复杂的概念
 
信息究竟是一个简单的概念还是复杂的概念?我给信息是这样下定义的:信息是事物的表现和描述。
 
这个信息的定义大家都能够理解,因而可以说信息是一个十分简单的概念。然而信息的问题讨论了上百年,如果真是这么简单,那么信息学的学者们不是太小题大做了吗?其实长期以来,信息概念的复杂度来自于我们对“事物”、“表现”和“描述”这三个基本概念的认识。
 
事物是指世间的万事万物。表现或描述是事物存在的基本特征。事物之间通过表现或描述进行相互联系作用。正因为信息是表现或描述,故而,信息可以存储、复制、转化、传播、由简单到复杂地综合、从复杂到简单地分析,这些是信息的基本属性。人为地进行信息属性方面的工作,就称为信息处理。待处理的信息是人们常说的数据。
 
信息所描述的对象叫信息主体,信息赖以存在的物质形态叫媒体。由信息主体或媒体都可以来划分信息的种类。例如,商业信息,战争信息,这是从信息主体方面分类的。再如,电信息,光信息,文字信息,这是从媒体方面进行分类的。
 
信息长期的困惑就是信息量的问题,也就是信息如何度量。
 
信息的度量必须根据其具有的基本属性来进行。由于信息概念起源于通信学问题,从人类通信的角度来看,同一个消息,对受信者有知晓程度之分,故香浓前辈将信息量定义为“未知程度”的量度。显然,这种度量信息的方法,只可以说明信息对接受者的“有用程度”,但因为并没有一把统一的尺子,也就不具有“客观性”。
 
度量不仅要在同一属性内进行,而且一定要有一个统一固定的尺度,这两者缺一不可。香浓的信息量度量,虽然有同一属性的前提,但缺乏统一的尺度,因而不能对不同的信息进行“统一”的度量。
 
计算机的出现,使信息的度量有了客观的,统一的尺子。由于在计算机领域中,用二进制数可以表示一切信息,因而,信息量的大小就可以用二进制数表示的位长来量度,bit就是统一的尺度。这种量度不会因人而异,不必再通过通信的方式才能度量,所以客观实在,目前被人们普遍接受了。若一条信息是二进制数N,那么这个数的位数就是log2N,于是信息量n=log2N。
 
由于用数可以表示任何信息(这是理论上的,实际上要寻求具体的表达方式),当然用k进制数表达也完全可以。那时用数k进制数N表示的信息的信息量应是n=logkN,k是大于1的整数。
 
信息有许多属性,按着某一种属性都可以产生一种度量方法,前提必须能够找到统一的尺子。这就如同物体一样,你可以按照它的质量来量度它,也可以按照它的体积来量度,无论哪种度量都要有尺子。究竟我们要采用何种方式度量信息,这跟对信息的需求有关。在计算机科学和二进制通信中,以bit作为信息量的基本单位,统一量度大有好处。
 
信息的概念很容易理解,但由于表现和描述与科学的发展关系密切,故而体现出多种多样的复杂性。例如量子计算机中的量子bit就不是二进制的,两个量子纠缠的信息表示,很可能就是四进制的关系。如果是三个量子纠缠,信息的表示就可能是八进制的。如果我们能够找到用十进制表示全部信息的方法,那么信息N的信息量就应该是 n=logN。
 
至此我们应该不难理解,信息的复杂度来源于对信息如何表现和描述。用什么样的物质方式来描述信息,这会随着科学技术的发展,以及人们对客观世界的认识深入,不断地发生变化。物理学之中,对信息的概念研究太纠缠在信息的表达方式上了,这就造成了信息概念难以确定的假象。科学研究的目的不是要将简单的事情搞复杂,正相反,科学研究的目的,是要将复杂的问题简单化,从而让人们都能够理解它,掌握它,从而为我们的生产生活服务。
 
欢迎讨论。
 
2010-1-23
 
[附录2]
 
香农的信息度量方式实用吗
 
姜咏江
 
许多研究者将信息说成一个很抽象的概念。其实,我们时时刻刻在接触着信息,天天在使用信息,如何说信息很抽象?我们天天看报纸,听新闻,不间断地断地聆听世界的声音,嗅闻周围的气味,睁开眼睛就能够看到周围的一切,我们可以触摸物体而感知它的存在,我们可以书写文章来传达自己的心声,…。这一切不都是信息的实在吗?
 
信息是事物的表现和描述,是客观实在的东西,不论我们是否认识或承认它,它都随时随地地伴随着我们。
 
宇宙间的一切事物无不具有两重性,这就是“确定性”和“不确定性”。信息虽然也是客观实在的东西,但充满了不确定性也是它的一个重要特征。人们最早注意到信息,是来自“消息”。因为各种各样的消息会引导人们的行动。特别是在战争中,消息往往会起着决定战争胜负的作用。消息有真有假,当人们已经知道某个消息之后,这个消息再传来,已经是过时的了,因而就没有对这个消息一无所知的人用处大。可见消息或信息的“可用性”是它们的一个重要属性。从信息对人们的可用性来考虑,同一信息对不同的接收者的作用来说,就有大有小,对于这方面度量研究,就产生了香农的信息熵(shāng)概念。
 
由于信息对不同的接收对象作用不定,香农就想到用事件的概率作为信息的量度的依据。假如一个信息能够用随机变量x表示,并以概率p(x)向x传达信息。那么每一个p(x)“这个数”的二进制表示就需要 -log2p(x)位,在十进制下则需要-logp(x)位。前面加“-” 号是因为p(x)<1,为使熵值为正而添加。
 
从不确定的可能性理解,这种二进制可能的位数就应该是 -p(x)•log2p(x) 或十进制下的 -p(x)•log p(x)。作为表达该信息x的全部信息量,从数的角度出发,应具有求和特征。于是用H表示信息量(即所谓的熵),则有二进制表数的公式为
 
同样,我们可以得出其他进制的熵公式。
 
从香农信息量计算公式的得出,不难看出他首先使用了信息数值化方法。也就是用二进制数来表示概率,其次才找出一种数学的计算公式。虽经千变万化,最终还是以“数码的位数”来确定信息量的大小而已。
 
在古典概型下,很容易证明 H = log2x。因为古典概率p(x)=1/x,所以
 
        x
H = -∑(1/x•log2(1/x) )
        1
 
    x
= -∑(1/x•log2(1/x) )
   1
 
   x
= ∑(1/x )•log2x
  1
 
= log2x
 
我们之所以采用二进制来计算信息量,是因为通信使用二进制编码,计算机也使用二进制编码。信息采用何种度量方式,取决于我们对信息的工作方式,亦即信息处理方式。还取决于我们对信息的量化方式。从“可能”到“必然”是我们求知认知的过程。如今我们已经确定地掌握了数字编码和通信的方法,当我们处理一个编码数据的时候,已经基本上没有了那种“不确定性”,而且有了错误还能够及时纠正,因而也就无需非要与“概率”硬拉关系,除非要搞纯粹的“数学理论推导”。
 
数字化时代,信息量的计算十分简单,只要数一数以数码方式表达的信息有多少位,就知道这个信息的信息量有多大了,不必麻烦仙农前辈。
 
2010-1-24
 
[附录3]
 
信息计量为什么
 
姜咏江
 
谈过什么是信息和信息如何用数学方法度量之后,我们来谈谈为什么要对信息计量。
 
世界上一切事物的计量都是为了用。除了有特殊的用途之外,信息的计量主要是为了公平的交换。在商品市场上,交换的基础首先是数量,其次才是价格,没有数量,就失去了价格的意义。
 
最典型的,也可以说是“公平”的信息计量,是体现在文字信息上,这也许在信息科学家没有研究之前,人们已经学会了如何度量信息了。计量文字信息量的方法,就是数文字的个数。不论哪一个有文字的民族都是以这种简单的方式对文字信息进行计量的。用文字的数量作为付给作者报酬的标准。用文字数量来确定图书的价格。这一切都显得那么自然,合情合理。用文字来描述事物的人,他们在从事“信息处理”的工作,并在工作中,付出了艰辛的劳动。他们将各种各样的信息搜集起来,然后又转化成用文字描述的形式,这其中需要功底和技巧,就如同我们要将各种各样的信息,进行数字化一样,绝非易事。
 
一切事物都可以都可以用语言文字来描述,因而一切信息都可以转化成文字信息。由此来看,信息量的问题并不是什么新的发明,而是有文字的历史以来,人们就已经掌握了的问题。用二进制数字来表达信息,应该说是人类的结构最简单的一种文字信息,可以叫“万国通用文字”信息,数码“0”“1”就是其中最基本的文字。0或1在万国通用文字描述中的数量就是信息量!
 
一个语言文字所占的位置就是一个“bit”,只是由于语言文字之间没有进位关系,故而不能用数学算式来表达一个信息的位数多少。而用数字描述信息x,就能够做到用数学计算的方法,得到数码的位数log2x。
 
信息的计量都是在某种公认的“一致性”基础上进行的。就文字描述事物来说,事物的描述可以是“精准”的,即言简意赅。这种情况下,使用文字的数量会相对少。对同一事物的描述,也可能是“罗嗦”的,那么所用的文字就会较多。在这两种情况下,似乎是以文字数量来计算信息量又不够精确了。其实任何一种计量方法都有误差,只要我们不“计较”那些“无关紧要”的误差,一切不就都变得“精确”了吗?
 
任何事物抽象到数值化的过程,都会有舍弃误差的过程,从这种情况来看1≠1,只有当我们对实际误差不计较的时候,才是纯数学的1=1。
 
最后要说,用概率方法计算信息量,不仅因为随机的概率不容易确定,而更重要的是失去了“公认的”一致性,因而在实践中很难应用于信息交换。
 
呵,科学,你要简单还是复杂?
 
2010-1-25
 


https://blog.sciencenet.cn/blog-340399-291076.html

上一篇:差钱不差钱
下一篇:实数与数轴上的点一一对应的质疑
收藏 IP: 221.220.128.*| 热度|

3 徐晓 icgwang wghwgh

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-28 07:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部