|||
幂律成因--斩乱麻问题、幂律成因与组成理论之二--2005-9-4--张学文
(注:本篇2005,9,4到2005年年底在奇迹论坛被浏览5576次)
2007.5.28注:到目前,那里的访问量是27000的水平。 随贴发表的言论有97条,其中冯向军做了大量的考证,说明这个理论说明已经在国外被不同的学者从不同的侧面提出过。我的态度是不否认这些贡献,但是也不认为他们已经把问题得十分透了(以后会继续有这方面的文章发表),另外,那些文献在中国没有得到传播。而目前有近3万的浏览量说明我国的读者还是认为我这里是有新知识的。我估计我国每年发表的有关幂率的文章不少于100篇,但是都不谈原因,只谈事实。所以我认为我的论述依然是有价值的--2007.5.28)
斩乱麻问题是利用复杂程度最大(跳出热力学的熵原理)求一个函数的生动例子,现在利用类似思路研究为什么很多自然和社会现象中体现着Zipf,或者分型学说的创立者大力宣扬的幂分布。 |
|
大约50年前G.K.Zipf发现英文的文本中a,the等字母少的词出现的机会多,而字母多的词(如Basketball)很少出现,他发现组成一个词用的字母的数量n与该词在文章中出现的概率p为负幂函数关系:p=c(n^a),a是个小于0的常数,c是系数。Zipf热情地寻找这个规律在其他社会现象领域的实用个例,目前有专门讨论这个定律的网站。多数城市的人口比较少,少数城市人很多;多数网页看它的人数很少,少数网页很多人看,这里的城市数量与人口数量的关系,网页数量与看它的人数都满足幂律关系的。 |
|
显然把幂函数的两边取对数,那么变量(如组成词的字母数)与其出现概率的对数恰好是线性关系,或者说在双对数坐标下,变量关系是一条直线。所以变量对数为直线关系就成为判定是否为幂律的简单依据。 |
|
B.B. Mandebort倡导分型几何学,他弄出来的美丽图案已经让人们承认他是一个新的分支的领袖了。其实,Mandebort研究的所谓分型问题中包括了大量的幂律分布,其他人也在这种热情中又发现新的幂律。所以目前从自然科学里的原子核到社会现象,人们在非常广泛的领域里都发现幂律存在。 |
|
统计数学里经常介绍很多广为应用的概率分布函数,著名的如正态分布,那里对幂律的关注比较少,其实,幂律也是概率分布中的一种。鉴于在不同语言下发现了大量的事例,幂分布应当在概率论中占有比较重要的地位。 |
|
为什么这些十分不同的现象都服从幂律,其共同的制约因素是什么?我也看过分析一些文章,不谈形成原因的文章多(甚至说不知道原因反而体现这个分布的神秘性),理论分析文章少,而指明它们的共同原因的文章,我到目前依然没有看到(也可能我看的文章少)。 |
|
大约在15年前,我们就收集和自己证明,很多概率分布函数都可以利用熵最大(复杂性最大)原理配合不同的约束而推导出来。《熵气象学》(气象出版社,1992)中就汇集了我们给出的多种概论分布所要求的约束条件。但是书里没有提幂分布。 |
|
大约在1991年《熵气象学》交稿后我们发现用最大熵原理配合上“变量的几何平均值为常数”这个简单约束条件就很容易得到幂分布。它与斩乱麻的约束条件的差别很小,一个的变量的平均值为常数,一个是其几何平均值不变。可以说这个简单认识道出了幂分布的形成原因。 |
|
遗憾的是这个认识我们一直没有写成文章。1999年我为网易的科技栏目写“改造后的熵”,就把这个认识公布到网上了。见诸书面文字则是2003年出版的组成论里比较系统地说明了这个认识。 |
|
所以可以说:关于Zipf律、分型的自相似律、幂分布律的形成原因就是变量具有随机性(可以引用熵最大原理—最复杂的结局出现的概论最高),而且变量的几何平均值(对于与百分比的平均)不变,这么两条。它类似斩乱麻问题但是那里的约束是代数平均值不变。所以在我看来幂律形成的统一原因在熵原理那里是个已经解决的问题。有兴趣的同志可以到组成论的网页版 2010.7.17注 http://zxw.idm.cn/ZCL/part3/C17b.htm#§17.6分数维与幂分布(1)。 |
|
这里一再提到组成论这本书,下一段再简单介绍这个关于组成问题的理论知识体系。 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 08:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社