张学文20080707
(6)复杂程度概念
1. “复杂”和复杂程度
低年级的小学生就知道“复杂”二字的含义。可是从科学的角度看,要把“复杂”提炼为科学名词,就需要把它定量化。确实如果我们可以把“复杂”量化为一个可以计算的量,并且方便地用到十分广泛的领域,那么我们就提炼了一个重要概念。
在系统科学里人们要研究“复杂”的系统。最近30年所谓复杂性研究又成为热门。在这些领域都标榜自己研究涉及“复杂”的问题,如果对“复杂”的定量计量问题都没有很好的解决,那么这个研究必然存在基本的弱点。因此给复杂下个妥当的定义,并且在各种场合可以具体计算出来复杂程度是多少,这就是件重要的事情。
在前面交代了“个体-概念-集合”和分布函数概念,再引入“复杂程度”概念就十分方便了。
复杂程度: 用个体集的分布函数计算一个数(C)
对于由N个个体组成的一个个体集,根据其中每个标志值占有的个体数量ni,(i=1,2,…,p,显然p≤N))都可以用下面的公式计算出一个数值来。我们用大写的C表示这个数:
C=NlogN-∑nilogni ~~(i=1,2,…, p)
这里的各个ni就是各个标志值xi所对应的个体的数量。或者说是分布函数的函数值。
这里的log是数学里的取对数的意思(对数的底应当是大于1的实数)。如果对数是以2为底的,其复杂程度的单位就称为比特, bite。它与信息论里的单位是相同。
经过对这个量的多侧面分析,我们认为把数值C称为该个体集的复杂程度是很妥当又十分需要的。
只要每个个体集的分布函数是知道的,就可以计算出该个体集的复杂程度C。个体集可以用到物理、化学、生物、地理、天文以致社会科学,所以这个公式可以计算很多领域的研究对象(个体集)的复杂程度。
2. 计算复杂程度的例子
个体集[A]是指一个白球和两个黑球,求这个个体集的复杂程度
[A]=1(白球)+2(黑球)
CA=3log3-1log1-2log2=2.75比特(计算时对数以2为底,下同)
我们可以把它理解为个体集内标志值的差别程度、可区分的状态的丰富程度或者状态的混乱程度。如果3 个球都是一个颜色,那么公式变成了
C=3log3-3log3=0
即其复杂程度为零,它说明清一色的系统,其复杂程度为零(再简单不过,所以复杂程度的最小值是0,它没有负值)。而且无论这里有多少个个体,其复杂程度都是0。一个水库里有很多水分子,你可以说那里物质很多,但是该系统的内部的状态却是清一色的水,这十分单纯,所以状态的丰富(复杂)程度小到了最低值,0。
由0,1,2,…,9这10个数组成的数的复杂程度=10log210=33.21928bite(注意log1=0)。由26个英文字母组成的个体集的复杂程度=20log26=26×log26×3.321928=122.2 bite。一副扑克牌有54张,每张都不同,根据复杂程度公式,其复杂程度=54log54=310.76 bite(比特)。
钱夹里有3张100元的、4张50元的、5张10元的人民币,班里有23个女同学和21个男同学,这些个体集的复杂程度大家不难根据公式计算。
下面是求算复杂程度的更多的例子(题目),它们体现了很多领域都存在对应的复杂程度的计算。它们都用这里提供的公式,而这些我们过去可能没有想到。利用这些计算自然可以展开对应的分析研究。确实,过去不少人围绕平均值做了很多文章;现在我们看到一切可以计算平均值的数据都可以拿了再计算另外一个重要的数--复杂程度C,所以利用复杂程度再写文章很多的机会已经来了。
l 已经知道不同年龄的中国人各有多少,于是可以求中国的人口年龄的复杂程度。
l 一个国家有30万公里的公路,已经知道不同等级的公路各有多少,求公路等级的复杂程度。
l 已经知道500强企业的资产,求企业的资产的复杂程度。
l 已经知道10万平方公里面积受到了不同烈度的地震灾害的面积各有多少,求该地区地震烈度的复杂程度。
l 已经知道本省12万平方公里面积上不同雨量分别占了多少面积,求雨量分布的复杂程度。
l 已经知道本岛屿上不同物种的动物各有多少,求该岛上动物的复杂程度。
l 知道班上57位同学的考试成绩,求考试成绩的复杂程度。
l 运动会的门票1等的200张,2等的1000张,3等的1200张,求运动会门票的复杂程度。
3. 复杂程度的重要性质
根据复杂程度公式,注意到N,以及各个ni都是正整数,不难知道复杂程度不会出现负值。而当每个标志值仅占有一个个体时(各个个体的标志值都不相同时,复杂程度达到它的最大值,C=NlogN。当N=1时,即这个个体集里只有一个个体,其复杂程度=0。
个体集[A]与个体集[B]如果它们所包括的个体是同类个体,而且标志相同(标志值可以不同),当它们合并为一个个体集以后,新的个体集的复杂程度可以大于原个体集的复杂程度的“和”。如[A]是一个红球,[B]是1个白球,把它们合成一个由两个球组成的新的个体集,则新的个体集的复杂程度=2log2,由于原个体集的复杂程度都是0,所以个体集的合并(加法)体现了0+0>0的特点。它对哲学家热心讨论的1+1大于2问题给了一个严格的数学、物理论证。
在信息论的语言里,面对一个个体集进行一次(不是2次,或者多次)抽样的结局的不确定性H被表示为
H=-∑pilogpi ~~(i=1,2,…, p)
注意到pi=ni/N,有,C=NH,即信息熵H的N倍就是复杂程度C。于是沿着现在的思路引入的复杂程度概念与信息论里的信息熵概念是成正比例的量(如果进行N次抽样,其结局的信息熵恰好等于复杂程度C)。由于信息论中已经发现了信息熵的很多数学性质,借着这个关系,信息熵的很多知识也自动归入复杂程度的性质中。
《组成论》还指出在热力学领域,复杂程度(乘玻尔兹曼常数以后)就是物理学中的热力学熵。
于是我们看到复杂程度概念吸收了物理学的热力学熵、信息论的信息熵作为自己的特例,它同时把自己方便的用到一切个体集上。所以复杂程度概念的明朗化也是“熵概念”在新理解方式下的合理扩展(从热力学扩展到其它领域,这可以是概率领域,也可以是另外的)。
4. 复杂程度物理意义
应当说规定前面的计算量C为复杂程度的核心理由是它的计算结果符合大家在生活中对复杂一词的理解。这就使得用途十分广的“复杂”概念有了比较科学的量化途径。而各种场合对“复杂”二字的理解自然就成为理解复杂程度公式的多种思路。
前面已经看到该系统内(个体集)的不同(可分辨)的标志值(状态)越多则复杂程度越大(相同的标志值的数量越多复杂程度越小);个体数量(N)很大,则复杂程度大。在有些场合这个量,体现了该系统内部状态的多样性,复杂程度是个中性词。
热力学关注物质分子运动的混乱、差异、丰富程度,并且用热力学熵表示它,所以你可以借助热力学熵理解复杂程度,也可以反过来,借助复杂程度理解热力学熵(比较流行的把热力学熵说成为无序程度是不准确的,因为“序”不能简单的用“复杂”来度量,所以我们不使用这个提法)。在信息论里人们考虑抽样结局的不确定性,它现在也成为理解复杂程度概念的一个角度。相信大家在把它用到不同场合时会逐步加深对这个重要的词汇的理解和运用。
5. 关于复杂程度的定律
我们从“个体”概念的清晰化,引申出关于个体的集合概念,即个体-标志值-集合(个体集),随后提出了对个体集的分布函数概念的提炼和个体集的特征量的讨论,并且引出了复杂程度概念。复杂程度概念与热力学熵概念、信息熵概念的联系固然是我们重要的收获,但是新概念的引入如果没有与新规律的揭露联系起来,人们可能就怀疑这样做是否值得。我们后面就要说明前面这些概念、公式的引入核心是为了引入一个定律,复杂度定律。
https://blog.sciencenet.cn/blog-2024-31539.html
上一篇:
一种新的熵下一篇:
农民发明不该受冷落(转贴稿)