complexityworld分享 http://blog.sciencenet.cn/u/pb00011127

博文

Zipf定律和Heaps定律之间的关系 精选

已有 42971 次阅读 2013-2-5 23:44 |个人分类:生活点滴|系统分类:论文交流| 关系, color, background, white

Zipf定律是Zipf1949年的一本关于人类定位的最小作用原理的书中首先提出的,其中最令人难忘的例子是在人类语言中,如果以单词出现的频次将所有单词排序,用横坐标表示序号,纵坐标表示对应的频次,可以得到一条幂函数曲线。这个定律被发现适用于大量复杂系统。Heaps定律是Heaps1978年一本关于信息挖掘的专著中提出的。事实上,他观察到在语言系统中,不同单词的数目与文本篇幅(所有出现的单词累积数目)之间存在幂函数的关系,其幂指数小于1

很多复杂系统同时满足Zipf定律和Heaps定律。譬如2008年的时候,我们针对PNAS上面出现的所有关键词进行了统计分析,发现这些关键词出现的频次和新关键词的涌现,都很好符合Zipf定律和Heaps定律,文章在《欧洲物理学杂志B发表》

但是对于两者关系,学术界存在长期争论。通过一些随机过程模型,有些学者(Baeza-Yates, Navarro, Leijenhorst, Weide, Serrano, Flammini, Menczer)认为Zipf定律是本质的,Heaps定律是衍生的,可以从Zipf定律推出;有些学者(Zanette, Moutemurro)认为Heaps定律是本质的,Zipf定律是衍生的;有的学者认为这两种定律相互独立(预告一下,史定华老师最近可能会报道更强的结果)。

我们不依赖于任何随机过程,证明了Zipf定律更本质,而Heaps定律是衍生律。进一步地,我们证明了以前的两个定律指数之间的解析关系,只是在Zipf指数远大于1或远小于1或系统规模无穷大的时候的一种渐进解。遗憾的是,真实系统不满足三种条件中的任何一种——这正好显示了我们工作的重要性。我们提出了新的解析方法,得到了更精确的解析结果,在35个真实数据中进行验证,发现有34个数据新结果都好于以前的结果。文章在《公共科学图书馆:综合》上面发表。这篇文章对很多重要的现象提出了新的解释。例如可以从全新的观点解释无标度网络加速增长的原因——无标度网络要保持标度指数的稳定必须采用加速增长的方式。

最近我们关注具有有限候选对象的选择动力学。一个典型的例子就是写作——从可能的所有汉字中一个一选出来,就成了一篇文章。我们发现,虽然汉字字频分布是幂律的,但是Zipf图上却呈现出指数下降。并且,新字的增长也不符合Heaps定律。事实上,以前北京师范大学王大辉老师和韩国成均馆大学的金葆俊老师分别在中文和韩国姓氏中发现了类似的指数Zipf分布现象。这个时候,字频分布的幂指数在1左右,恰好对应发散的Zipf指数。我们建立了一个非常简单的模型,该模型考虑了选择对象总数的有限性。模型可以很好生成幂律密度分布+指数Zipf分布+开始线性然后对数的新词增长规律。这个模型完全可以解析。我们尝试搞了几万本书放在一起做实证,发现新词增长实际上有三段,线性+对数+饱和。这个模型强调了以前一直被忽略的一些因素,其解析方法也比价明快简洁,近期在《科学报道》上发表了。

 

---- 3篇相关论文 ----

 

论文信息:Zi-Ke Zhang, Linyuan Lü, Jian-Guo Liu, Tao Zhou, “Empirical analysis on a keyword-based semantic system”, Eur. Phys. J. B 66 (2008) 557.

全文链接http://link.springer.com/article/10.1140%2Fepjb%2Fe2008-00453-9?LI=true

全文下载:

EPJB-Zico-2008.pdf

 

 

论文信息:Linyuan Lü, Zi-Ke Zhang, Tao Zhou, “Zipf’s Law Leads to Heaps’ Law: Analyzing Their Relation in Finite-Size Systems”, PLoS ONE 5 (2010) e14139.

全文链接

http://www.plosone.org/article/info:doi/10.1371/journal.pone.0014139

 

论文信息:Linyuan Lü, Zi-Ke Zhang, Tao Zhou, “Deviation of Zipf's and Heaps' Laws in Human Languages with Limited Dictionary Sizes”, Scientific Reports 3 (2013) 1082.

全文链接

http://www.nature.com/srep/2013/130130/srep01082/full/srep01082.html

 



https://blog.sciencenet.cn/blog-3075-659858.html

上一篇:Selected Annual Publications in English
下一篇:大数据的商业、科学和弊端
收藏 IP: 118.112.228.*| 热度|

23 曹聪 王芳 许培扬 武夷山 张海峰 应行仁 肖重发 毛进 苏力宏 刘全慧 章忠志 唐常杰 赵凤光 邹益民 章成志 徐硕 龚凯 韦永梅 lmshspring crossludo cgy biofans rosejump

该博文允许注册用户评论 请点击登录 评论 (19 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 20:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部