|||
在线人类行为动力学中的肥尾特征
王澎[1,2] 汪秉宏[3,4]
1, 杭州师范大学信息经济研究所,杭州, 310036;
2, 杭州师范大学阿里巴巴商学院,杭州,310036;
3, 中国科学技术大学, 近代物理系,合肥,230026;
4, 上海理工大学,复杂系统科学中心,上海,200093
摘要:几乎所有的社会和经济系统都是由人构成的,因此定量的理解人类行为的重要性在这里是显而易见的。多亏了信息技术的发展,来自互联网的越来越多的电子记录给予我们很好的机会来理解人类的行为模式。近年来,很多学者已经研究了从邮件通信到博客发文的广泛的在线人类行为记录。本文回顾了最近有关人类动力学重要的实证结果并探讨了可能的研究方向。
关键词:在线用户行为,人类动力学,时间间隔分布,肥尾
中图分类号:F 293.3 文献标志号:A
The heavy-tails in On-Line
Human Dynamics
P. Wang [1,2] B.-H. Wang [3]
1 Insititute of Information Economy, Hangzhou Normal University, Hangzhou 310036;
2 Alibaba Business College, Hangzhou Normal University, Hangzhou 310036;
3, Department of Modern Physics, University of Science and Technology of China, Hefei, 230026
4,The Research Center for Complex System Science, University of Shanghaifor Science and Technology and Shanghai Academy of System Science - Shanghai, 200093
Abstract:The significance of the quantitative understanding of human behavior is quite obvious since the dynamics of many social, technological and economic phenomena are driven by individual human actions. Thanks to the development of the information technology, more and more electronic records available from internet give us a valuable insight into the pattern of human behaviors. From surface mail to blog posting, a wide variety of human activities were studied in recent years. This paper review the main result arising from all these studies and discuss further research direction.
Key words: online user behavior; human dynamic; inter-event time; heavy-tails
1. 互联网与海量人类行为数据
对人的行为模式和特征的研究有着重要的社会和经济价值。人是构成我们这个庞大而复杂社会的基本单元。因此,当我们希望了解和模拟任何这个群体中发生的现象和过程的时候,有关人这个基本单元本身的动态特性的知识则是永远无法回避的。然而,人本身又是及其复杂的系统。早期的金融物理,经济和社会学建模,还有流行病模型中, 作为过程执行者的人往往只是被简单的假设为服从某种迫松行为。在社会学和心理学,对人的研究已经有悠久的历史和一套完整的方法,比如通过问卷调查抽样了解样本人群的特性,比如实验心理学中通过对志愿者的实验来了解个体行为中的心理细节。虽然这些传统的研究成果某种程度反应了个人的某些行为特征, 但是一方面其数据仍然太少,很难对人的行为给出一个比较全面和普遍性的特征描述,另一方面是其结果过于细节,对于由人构成的复杂系统的建模研究似乎可以利用之处甚少。
然而计算机的出现,信息技术的发展,则让我们看到了实现的希望。首先是个人电脑的出现。人们通过电脑的每一个操作理论上都是可以记录和收集的。比如鼠标的移动,点击,链接的访问,文件的修改,命令的输入都能够被准确的记录下来,成为很好的研究对象。同时电脑的大量普及,互联网的诞生则导致了大量信息的数字化。Web2.0网站的出现则进一步推动了这个过程。不同于传统的网站信息的单向发布模式,web2.0网站上的内容通常都是用户自己发布的。也正因为有了用户的大量参与,使得这些网站上记录了丰富的用户行为数据,比如说发文信息,回帖信息,商品买卖,用户登录,照片上传等等。通过对这些数据的研究,可以极大的丰富我们有关人类动力学行为的知识。
2.从静态分析到动态分析
这些丰富的数据吸引了从物理学,计算机到社会学,心理学等广阔的学科的学者。早期,对于这些数据的分析,学者们大量使用了传统的数理统计方法,并且在此基础上慢慢进化为一门专门的学科“数据挖掘”[1];同时近十年来,作为另一种数据分析方法,图论被大量应用,并让“复杂网络”作为一门新兴的交叉学科飞速发展起来[2,3,4,5]。这种方法的核心就是把数据里不同个体看成节点,而个体之前的相互作用数据看成连边,这样形成了一个网络的图景,并利用传统图论中的一些特征量来研究这个“网络”。在研究在线社区的时候,社区里的每个人的主页往往被看成一个节点,而主页上的好友链接则看成连边[6]。研究手机用户行为时,每个手机用户则被看成节点,而彼此的通话则看成连边[7]。不过这里网络的连边数往往是各节点相互作用的累积量,这样的对待本质上把动态的网络静态化了,这主要是因为图论中的各种测量方法也都是只针对静态网络的,有关动态网络的刻画实际上是没有现成的理论的。比如,在在线社会关系网中友情链接的建立其实是一个动态过程,用户往往时逐渐增加一些好友,有时还会删除一些许久不联系的好友,但是由于文献中是往往不考虑这个动态过程的,直接以现有好友数作为节点的度,这其实只是反应了一个经历了长期演化后的累积量。早期,holme就注意到了这一点,通过研究在线用户的email通信间隔,他发现这里的时间间隔分布是呈幂指数分布的[8]。这种分布说明,在线用户之间的交流是存在很强的突发性的。
3.人类动力学的实证
3.1 时间间隔分布的肥尾特征
图.1 泊松序列和肥尾序列的不同。(a),(b),(c)分别为一泊松序列的时序和分布图;(d),(e),(f)分别为以幂律序列的时序和分布图。[9]
不过真正对时间间隔(两次连续行为之间的间隔)的分布的肥尾特征的普遍证实和关注则是之后barabasi等人的集大成的工作[9,10]。图1中显示了指数和幂率分布的间隔分布的不同,可以看到幂指数分布存在着非常多长间隔这是指数分布中不可能有的,这对应着的行为特点就是人往往会在经历了很长时间的暂停后又会突然密集的从事某事,因此又称这样的行为特征为突发性(burstiness)。他们研究了email, 通信,网站访问,图书借阅,股票交易等五种行为,并在这些行为里都发现了呈幂律的时间间隔(或等待时间)分布[10]。结合早前零星的证据,显示出这种特征是人类行为中的普遍规律。
在解决很多商业和社会实际问题中,比如交通流模型,交通事故发生频率,呼叫中心的呼叫,存货控制问题等等, 学者们往往都是假设人的行为间隔分布
为迫松分布。因此barabasi以及之前的研究,完全打破了这个传统观点。尔后的研究,包括打印间隔[11], 短信收发间隔[12],手机通信间隔[13],在线游戏登录[14,15],拍卖等待[16],论坛回复[17],网上冲浪[18]等等都进一步证
实了人类行为突发性这一基本特征。这意味着之前的那些问题的研究需要重新考虑。
3.2 变化的幂指数
更进一步的研究显示,用户的分布幂指数实际上是和其活跃性(个人用户的平均间隔时间的倒数)呈正比的[19]。这一结论最早来自周涛等人的研究,他先是根据活跃性对不同的用户分类,每一类用户产生一个集体间隔分布,通过拟合这个幂指数他发现,分布的幂指数与活跃性呈现单调的递增关系。很快,Filippo在AOL在线查询,Ebay信息发送,维基用户登录中证实了同样的相关性[20]。和周涛等人不同的是他这里是根据行为数量来进行分类的(如图2),不过由于数量和活跃性是正比关系,因此得到的结果和周涛等人本质上是没区别的。从图2可以看到,当用小时为单位记录间隔时,在天以外是有非常强的震荡的,这实际上是对拟合以及分布规律的展现是有一定影响的。另外他通过重新标度的方法(取 ,其中 为间隔分布, 为其平均量),发现在相对尺度下,原来不同幂指数的分布都塌缩到一起[20]。因此,他强调利用相对时间间隔来描述人类行为会更加合适。并且这一发现也说明不同活跃性的用户虽然间隔分布幂指数不同,但是其内在机制很可能仍然是一致的。不过一个有意思的地方是,他用同样的分析方法来研究Ebay的留言的等待时间,却发现不同活跃性的用户的等待时间间隔分布幂指数却没有明显的变化。
图.2 (a)Ebay留言间隔的全局时间间隔分布,这里每幅图对应于一组有相似留言数的用户。全部用户被分为11组,这里分别显示了其中的3,5,9,11组。虚线为其幂律拟合,对应的幂指数分别为:1.1,1.2,1.8,2.3 。(b)为不同组里能被以上全局分布很好描述的比例。这里的比例值R(Q) 是通过Kolmogorov-Smirnov测试计算出来的。(c)不同组的R(Q)值以及幂指数与行为数的关系[20]。
3.3 不同时间尺度下的幂指数
自从barabasi等人首次提出人类动力学这个概念,并发现肥尾特征在人类行为间隔分布中的普遍性以来,几乎所有的模型都似乎默认了一个关键的假设,那就是驱动人类行为的机制在所有时间尺度上都是一致的[21-27]。然而如果仔细分析实证结果却能得到一个非常不同的结果。
表1罗列了最近有关人类行为的实证结果,主要包括其间隔分布指数以及其所用的单位和分布所在的主要时间范围。在表里,我们简单的把时间范围分为两个区域:天以内和天以外。如表所见,当数据的单位为秒或者分钟时,研究往往只是集中在天以内的部分;当数据的单位为小时或者天的时候,呈现的间隔分布又往往是天以外的部分。没有任何研究同时关注过天以内和天以外的行为,尽管有人也注意到在24小时左右的地方分布会有轻微的隆起[28]。一个被广泛研究的例子就是电子邮件和通信记录,一些人根据这两个行为的间隔分布的指数不同,认为这两种行为分别属于不同的普遍类[10],而另外一些人则认为这个两个行为的内在机制是相同的,因为通过尺度缩放(rescaling)他们把一些看起来幂指数完全不同的分布塌缩到了一条分布上[20]。但是没有人注意到这两个行为的分布实际上是处于两个迥异的时间范围:得益于电脑的自动记录,电子邮件的收发时间都是以秒或分钟为单位,而通信的时间记录习惯往往只是精确到天,这导致之前的研究对电子邮件只是注意天以内收发间隔分布,而通信则是天以外。仔细比较表4.1里的行为的间隔分布,可以看到天以外分布的幂指数普遍要高于天以内分布的幂指数值:五个天以外的幂指数中有四个的约等于或者大于2;而所有六个天以内的幂指数都只是等于1或者稍微高于1。
如果对于不同的行为不同的时间尺度下的分布比较还并不能完全说明这种异质性,进一步的对同一行为不同时间尺度下得分布幂率则更完整的证实这个结论[32,33]。通过对博客发帖和维基词条修改两种行为的调查,无论是在集体层次还是在个人层面,都显示了分布幂指数在两个时间尺度上的不同,如图3。这种不同不仅反映在分布幂指数上同时也反映在相关性以及活跃性与幂指数的依赖关系上[32]。
表1 比较不同人类行为的分布幂指数。这里特别注明了每个数据的单位以及分布所在的范围。*对应于所有个人幂指数的平均值; 对应于个人分布的幂指数;其他的则为全局分布的幂指数。
行为种类 |
单位 |
范围 |
幂指数 |
电子邮件[9,10, 29] |
秒 |
天以内 |
1*,0.9 |
通信[29,30] |
天 |
天以外 |
2.37 ,2.1 |
图书借阅[10] |
分钟 |
天以内 |
1* |
打印[31] |
秒 |
天以内 |
1.3 |
路由访问[10] |
秒 |
天以内 |
1* |
点击同一链接[30] |
秒 |
天以内 |
1 |
点击任何链接[30] |
秒 |
天以内 |
1.25 |
AOL在线查询[20] |
小时 |
天以外 |
1.9 |
Ebay信息[20] |
小时 |
天以外 |
1.9 |
维基登录[20] |
小时 |
天以外 |
1.2 |
电影评价[19] |
天 |
天以外 |
2.08 |
图.3 个人行为的时间间隔累积分布。N为间隔的累积数。(a)(b)中的用户来自维基;(c)(d)中的用户来自博客。其对应的幂指数分别为:(a) ;(b) ;(c) ;(d) 。[32]
4.问题与讨论
由于该领域还处于发展初期,目前仍然存在着大量问题有待研究:第一,肥尾特征的普遍性。这里的普遍性不仅指对于不同人类行为是否都存在间隔分布的肥尾特性,更指这个特性在不同的时间尺度上的差异,以及是否在个体和群体层次上一致。第二,仅使用时间间隔(等待间隔)分布来描述和区分人类在线行为是远远不够的,对人类行为的其他特性的调研才有可能对人类行为进行更完整的刻画。这方面的研究才刚刚开始,比如用相关性系数来描述行为间隔序列[34]。第三, 行为的区分和模型的鉴别。现在绝大部分人类动力学模型只是用来解释肥尾这一个特征,很少涉及到更多的特征。
更重要的一个方向和可能的应用是个体行为在在线群体演化中的角色。尽管几乎所有的在线社会网络演化模型都会假设个体行为规则,然后通过这个规则来拟合相应的群体结构特征(比如度分布)[35,36]。然而很少有研究会同时考虑到这样的个体行为规则是否符合真实的个人行为特征的实证结果。真正合理的演化模型是要必须同时考虑这两个方面的。
本工作受到以下基金项目的资助:国家重点基础研究发展计划(973项目编号:2006CB705500),国家自然科学基金重大研究计划(非常规突发事件应急管理研究,项目批准号:91024026)国家自然科学基金(批准号:10975126, 10635040)高校博士点基金(批准号:20093402110032 )浙江省自然科学基金(Y6110317)
[1] Fayyad UM, Gregory PS, Padhraic S, Ramasamy U 1996 Advances in knowledge discovery and data mining MIT Press, Cambridge, ROYAUME-UNI
[2] Albert R and Barabasi AL, 2002 Statistical mechanics of complex networks. Rev.Mod.Phys, 74:47-97
[3] Boccaletti S, Latora V, Moreno Y, Chavez M, Hwang DU, 2006. Complex networks:structure and dynamics. Phys.Rep, 424:175-308
[4] Watts DJ, Strogatz SH, 1998. Collective dynamics of small-world networks. Nature, 393:440
[5] Barabasi AL, Albert R, 1999. Emergence of scaling in random networks. Science, 286:509-512
[6] Ravi K, Jasmine N, Andrew T, 2006. structure and evolution of online social. networks Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, 611-617
[7] Wang P, González MC, Hidalgo CA, Barabási A-L, 2009. Understanding the Spreading Patterns of Mobile Phone Viruses. Science, 324:1071-1076
[8] Holme P, 2003. Network dynamics of ongoing social relationships Europhys. Lett, 64:427
[9] Barabási AL, 2005.The origin of bursts and heavy tails in human dynamics. Nature, 435:207-211
[10] V´azquez A, Oliveira J G, Dezso Z, Goh K-I, Kondor I and Barab´asi A-L, 2006. modeling bursts and heavy tails in human dynamics. Phys. Rev. E, 73:036127
[11] Harder U, Paczuski M., 2006. Correlated dynamics in human printing behavior Physica A, 361:329.
[12] Hong W, Han XP, Zhou T, Wang BH, 2009. Heavy-Tailed Statistics in Short-Message Communication. Chin. Phys. Lett, 26:028902
[13] Candia J, González MC, Wang P, Schoenharl T, Madey G, Barabási AL, 2008. Uncovering individual and collective human dynamics from mobile phone records. J. Phys. A: Math. Theor, 41:224015.
[14] Grabowski A, Kruszewska N , Kosi´nski RA, 2008. Dynamic phenomena and human activity in an artificial society. Phys. Rev. E, 78:066110
[15] Jiang ZQ, Zhou WX, Tan QZ, 2009. Online-offline activities and game-playing behaviors of avatars in a massive multiplayer online role-playing game. Europhys. Lett, 88:48007
[16] Scalas E, Kaizoji T, Kirchler M, Huber J, Tedeschi A, 2006. Waiting times between orders and trades in double-auction markets. Physica A, 366:463-471
[17] Yu J, Hu Y, Yu M, Di Z, 2010. Analyzing netizens' view and reply behaviors on the forum. Physica A, 389:3267-3273
[18] Z. Dezso, E. Almaas, A. Lukács, B. Rácz, I. Szakadát, A.-L. Barabási, 2006. Dynamics of information access on the web. Phys. Rev. E, 73:066132.
[19] Zhou T, Kiet HA, Kim BJ, Wang B-H, Holme P, 2008. Role of activity in human dynamics Europhys. Lett, 82:28002
[20] Radicchi F, 2009. Human activity in the web. Phys. Rev. E, 80:026118
[21] Malmgren RD, Stouffer DB, Motter AE, Amaral LN. 2008. A Poissonian explanation for heavy tails in e-mail communication. Proc. Natl Acad. Sci, 105:18153
[22] Malmgren RD, Stouffer DB, Campanharo ALO, Amaral LN. 2009. On Universality in Human Correspondence Activity. Science, 325:1696
[23] Han XP, Zhou T, Wang BH, 2008. Modeling human dynamics with adaptive interest. New J. Phys, 10:073010
[24] Oliveira J G, V´azquez A 2009 Impact of interactions on human dynamics Physica A 388:187
[25] V´azquez A 2007 Impact of memory on human dynamics Physica A 373:747
[26] Shang MS, Chen GX, Dai SX, Wang BH, Zhou T, 2010. Interest-driven model for human dynamics. Chin. Phys. Lett. 27:048701.
[27]P.Wang, T.Zhou, X.P.Han,and B.H.Wang, "Modeling correlated human dynamics", arXiv:1007.4440v3.
[28] Baek SK., Kim TY, Kim BJ., 2008 Testing a priority-based queue model with Linux command histories Physica A, 387:3660.
[29] V´azquez A 2007 Impact of memory on human dynamics Physica A 373:747
[30] Goncalves B and Ramasco J J 2008 Human dynamics revealed through Web analytics Phys. Rev. E, 78:026123
[31] Hidalgo C 2006 Conditions for the emergence of scaling in the inter-event time of uncorrelated and seasonal systems Physica A 369:877
[32] P.Wang, Lei.Ting, C.H.Yeung and B.H.Wang, 2011 "Heterogenous human dynamic in intra and inter-day time scale ", Europhysics Letters, 94 :18005.
[33] P.Wang, X.Y.Xie, C.H.Yeung and B.H.Wang, 2011“Heterogenous scaling in interevent time of on-line bookmarking”, Physica A, 390: 2395-2400.
[34] Goh KI, Barab´asi AL, 2008. Burstiness and memory in complex systems. Europhys. Lett. 81:48002
[35]Grabowski A, 2009. Human behavior in online social systems. Eur. Phys. J, B 69:605
[36] Boccaletti S, Latora V, Moreno Y, Chavez M, Hwang DU, 2006. Complex networks: structure and dynamics. Phys.Rep, 424:175-308
相关插图可见原文PDF文件:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 23:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社