complexityworld分享 http://blog.sciencenet.cn/u/pb00011127

博文

年度最有趣工作:厘清Zipf定律和Heaps定律的关系

已有 30465 次阅读 2010-12-13 00:40 |个人分类:生活点滴|系统分类:论文交流

Zipf定律是Zipf1949年的一本关于人类定位的最小作用原理的书中首先提出的,其中最令人难忘的例子是在人类语言中,如果以单词出现的频次将所有单词排序,用横坐标表示序号,纵坐标表示对应的频次,可以得到一条幂函数曲线。这个定律被发现适用于大量复杂系统。Heaps定律是Heaps1978年一本关于信息挖掘的专著中提出的。事实上,他观察到在语言系统中,不同单词的数目与文本篇幅(所有出现的单词累积数目)之间存在幂函数的关系,其幂指数小于1

 

很多复杂系统同时满足Zipf定律和Heaps定律,但是对于两者关系,学术界存在长期争论。通过一些随机过程模型,有些学者(Baeza-Yates, Navarro, Leijenhorst, Weide, Serrano, Flammini, Menczer)认为Zipf定律是本质的,Heaps定律是衍生的,可以从Zipf定律推出;有些学者(Zanette, Moutemurro)认为Heaps定律是本质的,Zipf定律是衍生的;有的学者认为这两种定律相互独立。我们不依赖于任何随机过程,证明了Zipf定律更本质,而Heaps定律是衍生律。进一步地,我们证明了以前的两个定律指数之间的解析关系,只是在Zipf指数远大于1或远小于1或系统规模无穷大的时候的一种渐进解。遗憾的是,真实系统不满足三种条件中的任何一种。我们提出了新的解析方法,得到了更精确的解析结果,在35个真实数据中进行验证,发现有34个数据新结果都好于以前的结果。

 

这篇文章提供了对于复杂系统演化规律的有价值的见解,厘清了两个著名定律之间的因果关系。本文的结果有非常广泛的应用,对很多重要的现象提出了有力的解释。例如可以从全新的观点解释无标度网络加速增长的原因——无标度网络要保持标度指数的稳定必须采用加速增长的方式(具体参考论文)。这篇文章原创性的想法由琳媛提出,经我改良,由琳媛完成所有解析推导,子柯收集并处理分析所有真实数据,我程序实现随机过程模型进行验证。文章结构经大家讨论后,由我执笔完成撰写。

 

论文信息:Linyuan Lü, Zi-Ke Zhang, Tao Zhou, “Zipf’s Law Leads to Heaps’ Law: Analyzing Their Relation in Finite-Size Systems”, PLoS ONE 5 (2010) e14139.

全文可通过链接 http://www.plosone.org/article/info:doi/10.1371/journal.pone.0014139 获取。



https://blog.sciencenet.cn/blog-3075-392985.html

上一篇:林磊先生“人科”的主页
下一篇:重大研究计划项目交流会之住宿花絮
收藏 IP: .*| 热度|

10 武夷山 赵星 章成志 曾宇怀 周春雷 张子柯 韩筱璞 闫小勇 杨子荣 daliang

发表评论 评论 (10 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 05:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部