气象.水.熵.复杂性分享 http://blog.sciencenet.cn/u/zhangxw 张学文的文章,涉及气象、水分、熵、统计、复杂性、一般科学等

博文

对幂律、名次函数的一些认识

已有 5917 次阅读 2012-8-15 11:24 |个人分类:幂律|系统分类:观点评述| 幂律, 名次

对幂律、名次函数的一些认识

张学文,2012/8/13

最近李杰等在博客上对幂律做了一些探索,我随着也想到一些问题,现在说几句认识:

1.       圆的面积是其半径的2次幂,s=πr2,小学生都知道。幂函数本来就中学的数学知识。在科学中符合幂函数的确定性关系(公式)很多。它们的形成原因应当从对应学科里找答案。把幂函数转而单独称为“幂律(power low)”,我认为是特指一定含义的问题。我理解主要是指一些具有随机性的自然现象所体现、对应的概率分布不是50年前时髦的正态分布,而是具有幂函数形式的概率密度分布函数。其基本公式是p=a/xb.这里p是变量x的概率密度,a,b是两个常数,变量x具有的基本特点是它大于0。另外,b是大于0的一个数。当b=1,p,x是双曲线关系。

2.       所谓对应着概率分布问题,可以设想存在一大批(N个)个体。每个个体就特征变量x有一个确定值。问具有不同特征值的个体各有多少就对应一个概率分布(这个问“问题”的格式很重要)。这个情况对应于存在N个数据。例如800学生(个体们)中不同身高的学生个有多少,不同级别的地震发生了多少次,不同财富的家庭分别占有多少百分比等,这些问题太多了。它们构成了统计学与概率论中的核心问题(采样结果,其特征量被称为随机变量)。

3.       对上面的“具有不同特征值的个体各有多少 的答案对应一个概率分布(函数)。而不同的问题其答案对应的概率分布是不同的。正态分布曾经是很多统计学者认为的重要的一类概率分布,但是二项分布,均匀分布等10多种分布都被概率论所研究,并且认为比较常见。而幂律是其一,也仅是其一。

4.       符合“具有不同特征值的个体各有多少”模型的事物千千万万,而常见的对应分布仅10多种。是否存在一个统一的理论来回答这些结局不同的分布?在我写的《组成论》(中国科学技术大学出版社,2003,其实在1992年的《熵气象学》一书已经有了)从随机性事件对应熵(我称为复杂程度)最大配合不同的约束条件可以推出很多基本分布来。即最大熵+约束条件为基本概率分布类型提供统一的物理思路(不是数学游戏!)。幂律也在其中。

5.       牛顿不是用f=ma的力学公式配合不同的条件从而获得自由落体的直线运动公式,抛物线的公式、圆周运动、椭圆运动的公式吗?从最大熵配上不同的条件也得出不同的公式(概率分布公式),这说明最大熵原理与牛顿力学原理有类似又独立的地位!

6.       幂律概率分布可以从(熵最大+该个体们占有的变量的几何平均值不变)这个简单模型中逻辑地推出。我认为这应当成为我们理解随机性事件中的概率分布的主要理论思路。《组成论》http://zxw.xjxnw.com/ 17章对此已经有了相当仔细的说明,并且给出了数值试验的方法。那里也对为什么是几何平均值为确定值,而不是代数平均值为固定值的含义给了说明。

7.       对幂律型的概率分布公式两侧取对数,则新变量就在直角坐标系中变成了直线关系。所以检验数据是否满足幂律的直观方法就是看双对数坐标下的数据点(变量的对数,出现次数的对数)是否都在一条直线附近。

8.       在概率分析、统计与社会实践中,人们有时对随机变量的数值特别大的那些数据特别注意。跑得特别快的人,考得特别好的人,雨量特别大的降水就是代表。在工程上,特别大的暴雨、积雪、风力的数值联系着所谓工程的安全系数标准。不能抵抗强自然灾害的工程成本低,但是不安全,抵抗自然灾害能力很强则造价又高。所以随机变量高值端固然出现机会不多,但是准确认识其规律性具有实际的重要性。

9.       难道不同的概率分布在随机变量的高端有什么统一共同规律性?过去的教科书经常推荐一个极值分布律。它也被称为Gumbel分布。据说很多原始分布对应的极值都符合这个分布。

10.    关于随机变量的取值靠近高值端的一般规律性问题,人们有时也用另外一个思路去分析。这就是不去分析什么出现概率,而仅分析现有数据集合中的老大(最大值)、老二、老三的变量值与其名次排序的关系。这好像被称为名次函数。而一个重要的实践经验是随机变量的高端值被排序以后,随机变量值x与排序的第n名之间,居然在双对数坐标系中也是直线。于是人们认为,这也是幂律!

11.    我认为这个发现很重要,但是变量值与第几名的关系与概率分布问题不是一个含义。不能用最大熵加几何平均值的思路去解释它。而且在数据很多时人们发现所谓满足幂律也仅是在数据的高端部分,如果你选取全部数据,那么随机变量数值不大的那些数据则偏离双对数坐标系中的直线,而向下垂。这又如何理解?我尊重和注意这个统计实践的结果,但是需要对这些另外给出说明。

12.    我目前谈不出对此的理论说明,但是我做了两个数值试验它们说明原始分布为负指数分布,或者幂分布(即符合幂律)的原始数据系列,其变量的log值与logn(名次值的对数)在n小于100时符合幂函数(幂律),但是n再大,它就偏离双对数下的“幂律”直线而下垂。

13.    对此我准备在另外一文中说明有关情况。见:http://blog.sciencenet.cn/blog-2024-602409.html



https://blog.sciencenet.cn/blog-2024-602389.html

上一篇:8月13日大陆降水404亿吨覆盖度58%
下一篇:名次函数的高端都符合幂律?
收藏 IP: 222.82.114.*| 热度|

7 周少祥 蒋迅 李杰 徐传胜 占礼葵 李伟钢 杨学祥

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 14:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部