|||
把幂律分布写入概率论教材
1960年前后,数学家Erdos和Renyi提出了著名的ER随机图,成为网络领域的奠基性数学理论。近40年来,ER随机图一直是研究网络的基本模型。但是近些年,由于计算机的飞速发展使得计算能力的极大增强以及大规模实际网络实证数据库的获得,人们发现许多大规模实际网络结构既不是规则网络也不是随机网络,而是具有与前两者皆不同的具有统计特征的网络,这样的一些网络被称为复杂网络。复杂网络研究的两个里程碑式的工作分别是1998年由D. J.Watts和S.H. Strogatz发现的“小世界”效应和1999年由A.L. Barabási和R.Albert发现的“无标度”特性。这些重要的发现使得复杂网络成为一个十分引人注目的新兴研究领域。
许多现实世界中的复杂网络的连接度分布呈某种幂律(power-law)函数的形式。以k表示节点的度,p(k)表示度为k的概率密度,则幂律分布p(k)~k^(-a),其中k大于某个正常数,幂律系数a大于1,这是为了保证对概率密度从大于某个正常数到无穷的积分收敛。由于幂律分布没有明显的特征长度,该类网络也称为无标度(Scale-free)网络。幂律分布广泛地存在于实际的大规模系统,譬如Internet网、万维网( WWW) 、航空网、电力网、科研合作网络、生物中的基因调控网络、新陈代谢网络等等。而且人们发现许多实际大规模的复杂网络的幂律系数a值在2至3左右,例如Internet网的幂律系数在2.2-2.48左右,WWW网的幂律系数约为2.1(入度)和2.45(出度)左右,新陈代谢网络的幂律系数约为2.2左右。最近国内汪秉宏教授和其它几个研究小组与国际上许多实证研究也表明,人类动力学的许多动力学行为也表现为幂律分布,使得过去对于人类动力学的泊松分布的假设遭到巨大的挑战。
网络度的幂律分布的一个重要特点是,节点度k出现的概率p(k)在k增大时不是以指数形式迅速趋于0,而是以比较平缓的幂律形式渐进地趋于0。因此表现出“长尾”和“宽尾”性质。最早指出这种“长尾”分布的是Pareto定律和Zipf定律。19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名“二八律”,即20%的人口占据了80%的社会财富。1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率并非比较均匀,而是与它的名次的幂次存在简单的反比关系,表明英语单词中只有少数的词被经常使用,而绝大多数词很少被使用。网络的幂律分布表明度大的节点还是有一定的数量,在网络中这些度大的节点称为Hub,虽然Hub节点在节点总数中只占极少数,但是它们却发挥了“主导”的作用。正是这些Hub的存在,使得网络具有与均匀的随机网络完全不同的性质。随机网络模型假设网络中任意一对节点连接的概率都是相等的,得到的度分布p(k)服从泊松分布,在节点度k趋于无穷大时泊松分布p(k)趋于0的速度是介于正态分布e^(-k^2)和指数分布e^(-k)之间的,指数分布e^(-k) 趋于0的速度已经是很快的了,可想泊松分布趋于0的速度之快。但是总的来说,这三种分布都是“窄尾”或者几乎“无尾”。就拿我们最熟悉的正态分布来看,在正态分布表中,假设期望值为0,方差为1,那么变量与期望值之差的绝对值不超过方差的概率大约略微大于三分之二,不超过两倍方差的概率在百分之九十五,而超过三倍方差的概率仅仅只有百分之零点三。说明变量集中在期望值附近的一个很窄的范围内变化,尾部几乎为0。所以正态分布和泊松分布只能刻画那些个体性质非常一致的系统。譬如中国成年男子的身高在平均值1.
目前我们的概率论教材,在介绍概率分布时都是介绍传统的二项分布、泊松分布、正态分布和指数分布等等,当然它们也都有广泛的背景。而像幂律分布这样一种反映现实世界大量存在的重要的概率分布基本上没有涉及,更没有讨论它的背景、性质和作用,在一些教材中只是偶尔在习题中出现Pareto分布,这不能不说是目前概率论教材的一个缺陷。希望我们的概率论教材不断更新内容,及时反映新的研究成果,把幂律分布写入新的教材。
注:上面的建议已经思考了几年,但是一直没有静下心来写,最近开播了,才下决心把它写出来,供大家讨论。
最近与武汉大学数学与统计学院概率论专家
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 08:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社