|||
人类行为时空特性的统计力学
周涛1,2,韩筱璞2,闫小勇2,3,杨紫陌1,汪秉宏2,4
1电子科技大学,互联网科学中心,成都 611731
2中国科学技术大学,近代物理系,合肥 230026
3石家庄铁道大学,交通运输学院,石家庄 050043
4上海理工大学,复杂系统科学研究中心,上海 200093
摘要:人类行为的定量化分析,特别是时空统计规律的挖掘和建模,是当前统计物理与复杂性科学研究的热点。对人类行为的深入理解,有助于解释若干复杂的社会经济现象,并在舆情监控、疾病防治、交通规划、呼叫服务、信息推荐等处产生应用价值。本文综述人类行为时间和空间特性方面的研究进展,内容包括人类行为时间特性的实证分析和建模,人类行为空间特性的实证分析和建模以及人类行为统计分析的应用研究。最后将评述当前研究存在的亮点和不足,指出若干亟待解决的重大理论和实际问题。
关键词:人类动力学,标度律,非泊松统计特性
1. 引言
霍金认为,复杂性科学是二十一世纪的科学!对复杂系统的深入研究,不仅产生了新的理论体系,例如耗散结构理论、突变论、微循环论、协同学等等,而且带来了从还原论到系统论这一研究理念和方法论上的革新。复杂系统的研究成果,极大地拓展了我们理解世界的广度和深度,并在若干问题中发挥了巨大的实用价值。复杂性科学也是最广泛最深入的一门交叉学科,其中物理学、数学、信息科学、系统科学、管理学、生物学、化学、地球科学、经济学、金融学等等我们能够想象到的学科,几乎都涉足其中。
大量典型的复杂系统,都直接或间接和人发生关系。经济金融系统和社会系统是由人的意志和行为驱动的,如计算机互联网这样的大规模技术网络是由人建造的,被很多学者认为最复杂的系统之一的大脑及神经系统,是人身体的一部分。从人的社会属性出发,我们研究社会经济系统中通过人的相互作用和策略博弈涌现出来的复杂性;从人的生物属性出发,我们研究人体内的神经系统、代谢系统、基因调控系统等等。尽管这方面的研究已经是硕果累累,我们还是注意到前者把人看得太小,后者把人看得太大,对于与人相关的复杂系统的整体认识,尚缺失一个环节,就是人自身行为,特别是个体行为,在时间和空间上表现出来的复杂性。
对人类行为时空复杂性的分析,一直不乏零星报道,但未能引起学术界集中关注,直到2005年Barabási在《自然》上的一篇开创性的工作[1]。该工作清晰揭示了人类行为在时间上对泊松过程的偏离,并提出了一个简单的基于任务优先级的排队论模型,从而引起了广泛的关联和跟踪研究。一年以后,Brockmann在《自然》上发表了关于人类行为空间标度律的工作[2],揭示了人类长程旅行中表现出来的既不同于随机游走,又不同于Lévy飞行的独特性质。受这两篇开创性工作的影响,大量相继的工作在《自然》、《科学》、《美国科学院院刊》等期刊发表,掀起了有关人类行为动力学研究的热潮[3-9]。
追根溯源,对人类行为的思索古已有之。举例来说,现代心理学和经济学热衷的关于群体压力和从众行为的研究,早在蔡松年诗赋“槽床过竹春泉句,他日人云吾亦云”中便可觅得踪影,而近年传播学关于面对谣言和恐慌情绪时人类非理性行为和判断的报道研究,亦可视作三人成虎、曾子杀人这些典故的科学注脚。对人类行为进行科学而系统的研究,或始于华生的行为主义流派[10]——如此算来,也不过百年历史。尽管这一百年里,对人类行为的理解一直是社会学、心理学和经济学共同关注的焦点,但人类自身的复杂性和多样性,对一切科学的尝试来说都是巨大的挑战。本文所介绍的名为“人类动力学”的交叉学科方向,是主要由统计物理学家发起并推动的,与社会心理学所关注的人的行为有显著区别。从研究对象上讲,社会心理学对人的行为的研究主要集中于某些非常态的特异性为,例如犯罪行为、成瘾行为、变态性行为等等,而人类动力学关注的是人日常的行为模式。从研究目标上讲,社会心理学希望挖掘特异行为背后具体而微的心理学和社会学机制,而人类动力学则力图挖掘新的统计规律并建立相应的动力学机制。以个体间通信行为为例,社会心理学的研究希望回答的问题是人为什么要和其他人通信,这中间既有心理学的原因——渴望交流,又有社会学的原因——信息的共享与资源的整合;而人类动力学则是希望揭示个体通信行为中展现出来的特定的统计规律——例如通信时间间隔和回复时间的幂律分布,并挖掘相应的动力学机制,例如重要信件优先处理,容易回复的信件优先处理,有截止日期的信件优先处理,不一而足。从研究方法上讲,社会心理学的结论主要来自于有主观意图参与的实验和临床数据,通过分析得到定性或者简单统计形成的半定量结果,而人类动力学则是通过无干预的客观数据,从一个外在观察者的角度给出定量化的分析结果。从技术路线上讲,社会心理学主要是通过“观察-推断-实验设计-实验验证-修正推断”这个循环开展,其中实验设计中往往不可避免地掺杂很多研究人员主观判断,而人类动力学则是遵从“观察-数据获取与分析-统计规律挖掘-建模再现数据规律”这样的循环。后者几乎不对数据的产生过程、获取过程和分析结果进行人工的干预。
作为一门新兴的交叉学科方向,人类动力学的提出不过寥寥数年,但其重大的理论和应用意义已初露峥嵘。在理论层面来看,我们观察到很多由人的行为驱动的复杂系统的各类现象,其中人类动力学的研究提供了新视角和新解释。举例而言,对于部分计算机病毒以极低感染比例长期存在这个问题,最近Vazquez等人[11]提出了基于人处理电子邮件时间上的非泊松特性的解释,该解释完全独立于Pastor-Satorras和Vespignani[12]基于接触网络度分布异质性的解释。与此同时,人类动力学的研究还提出了很多新的理论问题,譬如对于到达时间间隔分布二阶矩发散的服务请求,以及有优先级限制的服务请求,如何用排队论的方法进行处理?又如具有向心性和局域化倾向的出行行为能否纳入某种扩散动力学加以解释?我们有理由相信,人类动力学的研究会推动随机过程和排队论经典理论的丰富和发展[13]。人类行为时空统计特性的挖掘,还具有相当的应用价值。对人出行,特别是长途旅行规律的理解,有助于理解、预测和控制全球性疾病的流行[14,15];对人出行和网络活动中表现出来的阵发性和记忆性的分析,可以应用于异常行为检测,例如疑似恐怖分子非正常的频繁跨越国境的旅行[9]和处于非正当目的的网络舆情操控行为的检测[16]等;对于人类群体出行行为时空图的分析可以为交通路网设计和道路流量规划,包括公共服务设施和商业设施的选点提供借鉴[17];对人网上行为的分析可以为更好的开展互联网信息服务提供借鉴[18];等等。
为了帮助我国学者尽快了解这个新兴方向的前沿进展,并作出具有原创意义的贡献,本文总结了近五年来人类动力学的相关研究进展,内容包括人类行为时间特性的实证分析和建模,人类行为空间特性的实证分析和建模以及人类行为统计分析的应用研究。本文的特色在于对很多有争议的问题,例如人类行为时间特性中的普适类问题,时间间隔胖尾特性的泊松解释,空间出行模式中个体标度律的存在性问题等等,给出了深入的讨论。并且,对可能成为未来研究焦点和突破口的挑战性问题,进行了展望和初步分析。希望本文能对我国学者在相关方向开展前沿研究提供助益。
2. 人类行为时间特性的实证分析
人类行为时间特性所分析的是人多次从事某特定事件表现出来的时间上的统计规律。譬如一个用户经常上网,那么我们可能会问几个问题:这个用户两次上网的时间间隔的分布有没有什么特征?这个用户访问他最喜欢网站的时间间隔的分布是不是也有类似的特征?这个用户平均要隔多久才会访问一个新网站,这个间隔时间是越来越长还是越来越短?这样的问题还可以问很多。对这些问题的回答,就组成了本节的主要内容。
接下来,我们将以紧凑的篇幅为大家呈现近几年来在理解人类行为时间特性方面快速而激动人心的进展。其间,我们不仅可以亲历经典泊松范式的塌陷,还可以见证幂律分布如何崛起并迅速成为主流,以及夹杂其间对数正态分布和双峰分布非主流的呐喊。正餐之外,诸君还可以欣赏到人类动力学普适类假说的惊艳与脆弱,阵发和记忆分析的威风与罩门,周期和波动效应一经提出就不绝于耳的争议……
2.1 从泊松到幂律
泊松分布最初是由泊松在他审判管理案件的工作中引入概率概念时提出的[19]。现在它被广泛应用于人类活动的量化模型中,描述单位时间内或指定范围内特定事件出现次数的统计规律性,例如模拟交通流量的模式或事故发生频率[20],商业话务中心的配置[21],库存管理[22],以及估计移动通信中占线的电话数量[23]。特别地,当我们对人类特定活动的数据收集能力有限时,泊松过程作为经典的刻画人类活动模式的手段,经常被不加仔细评估地应用于实际问题中。
最初被普遍使用的人类活动的随机模型假设:(1)在不相重叠的时间区间内行为发生的次数是相互独立的,即无记忆性和无后效性。(2)对充分小的 ,在时间区间 内有1个行为发生的概率与t无关,而与区间长度 成正比,即
(1)
其中 ,当 时,是关于 的高阶无穷小,可忽略。 是常数,它表示单位时间有一个行为发生的概率,称为概率强度。(3)对充分小的 ,在时间区间 内多于一个事件发生的概率极小,以至于可以忽略,即
(2)
其中 表示在时间区间 内发生 个事件的概率。
在上述条件下,我们可知事件到达的随机动力学过程可以用泊松过程很好地描述[24]。这种情况下两个随机事件到达的间隔时间 的概率密度函数具有指数形式
(3)
在实践中,这意味着可预测的人类活动模式是随机和平稳的,在时间上显示了一些规律,例如相邻事件平均的时间间隔为 。实际上,泊松过程可以看作具有负指数间隔的计数过程[25]。由泊松分布中标准差 可知,很长的时间间隔指数般地罕见。在图1(a)中,我们展示了由泊松过程产生的事件发生序列,可以看出,该序列中相继事件发生的时间间隔大体上是均匀的。
最近的几年里,通过对记录了我们活动历史的海量数据库的分析,从通讯、工作到娱乐,越来越多的证据显示我们的很多行为的时间统计特性无法用泊松过程刻画。特别地,这些行为所对应的间隔时间分布具有明显偏离指数分布的肥胖的尾部,可以用幂函数
(4)
更好拟合。在下一节介绍具体的实证系统之前,首先让我们直观认识一下泊松分布和具有典型胖尾特征的幂律分布的区别。如图1所示[1],从形态上讲,泊松过程所对应的分布尾部按指数下降,致使每两个行为之间的时间间隔长度几乎是规则的,长时间的等待是不存在的。而幂律分布下降缓慢,允许在非常长的时间内无事发生,在这些长长的空白与空白之间是犹如爆发一般密集的活动。通过对真实系统的统计分析,我们发现很多人类行为模式都具有胖尾的特性。
图1:泊松过程所预测的人类活动模式与真实的人类动力学中观察到的胖尾分布之间的区别。(a)泊松过程给出的事件发生序列,其中任意时刻有一个事件发生的概率是q。横坐标表示时间,每一条竖线代表在那个时刻有一个事件发生。注意到任意两个连续事件之间的间隔时间长度都是差不多的,遥遥无期的等待是罕见的。(b)1000个连续事件的间隔时间τ,其中线段在垂直方向的长度就对应于(a)中的两个连续竖线的空白长度。同样,观察不到很长的间隔时间。(c)在给定的时间间隔里面正好发生n个事件的概率是 ,由此两个连续事件的时间间隔分布是 。本图给出了(a)(b)两图中数据点在半对数坐标下的分布,其曲线可以用一条负斜率的直线较好地拟合。(d)具有胖尾分布的连续事件。(e)1000个连续事件的间隔时间τ,其中间隔时间的平均值和图(a)-(c)中泊松过程的平均值相同。注意那些像长钉一样扎在水平轴上的竖线,它们对应于那些很长的间隔时间。由于(b)和(e)的纵坐标是一致的,所以可以通过比较看出泊松分布的规则性和胖尾分布的阵发性直观上的不同。(f)具有胖尾的时间间隔分布 ,该分布对应于图(d)和(e)中的数据点。分布曲线在双对数坐标下显示为斜率为-2的一条直线。
2.2 实证结果
2.3 阵发与记忆
2.4 周期与波动
2.5 小结与讨论
【活跃性】【交互作用】【多重标度】【双峰】【泊松解释】【普适类】【重定标】
3. 人类行为时间特性建模
4. 人类行为空间特性的实证分析
5. 人类行为空间特性建模
6. 应用研究概述
7. 结论与讨论
参考文献
[1] A.-L. Barabási, The origin of bursts and heavy tails in human dynamics, Nature 435 (2005) 207.
[2] D. Brockmann, L. Hufnagel, T. Geisel, The scaling laws of human travel, Nature 439 (2006) 462.
[3] A.-L. Barabási, The Architecture of Complexity, IEEE Control Systems Magazine 27(4) (2007) 33.
[4] T. Zhou, X.-P. Han, B.-H. Wang, Towards the understanding of human dynamics, in M. Burguete, L. Lam (eds), Science Matters – Humanities as Complex Systems, World Scientific Publishing, Singapore 2008, p. 207-233.
[5] 郭进利,周涛,李季明,张宁,《人类动力学模型》,上海系统科学出版社,香港 2008.
[6] 李楠楠,周涛,张宁,人类动力学基本概念与实证分析,复杂系统与复杂性科学 5(2) (2008) 15.
[7] 汪秉宏,韩筱璞,人类行为的动力学与统计力学研究,物理 39(1) (2010) 28-37.
[8] 韩筱璞,汪秉宏,周涛,人类行为动力学研究,复杂系统与复杂性科学 7(2-3) (2010) 132.
[9] A.-L. Barabási, Bursts – The Hidden Pattern Behind Everything We Do, Penguim Group Inc., New York 2010.
[10] J. B. Watson, Psychology as the behaviorist views it, Psychological Review 20 (1913) 158.
[11] A. Vázquez, B. Rácz, A. Lukács, A.-L. Barabási, Impact of Non-Poissonian Activity Patterns on Spreading Processes, Phys. Rev. Lett. 98 (2007) 158702.
[12] R. Pastor-Satorras, A. Vespignani, Epidemic Spreading in Scale-Free Networks, Phys. Rev. Lett. 86 (2001) 3200.
[13] 史定华, 复杂网络的随机刻画和演化规律, 力学进展 38 (2008) 679.
[14] L. Hufnagel, D. Brockmann, T. Geisel, Forecast and control of epidemics in a globalized world, Proc. Natl. Acad. Sci. U.S.A. 101 (2004) 15124.
[15] X.-P. Han, B.-H. Wang, C.-S. Zhou, T. Zhou, J.-F. Zhu, Scaling in the global spreading patterns of pandemic Influenza A (H1N1) and the role of control: empirical statistics and modeling, arXiv: 0912.1390.
[16] 周涛,网络“水军”不可放任,人民日报,2009年12月27日.
[17] H. S. Mahmassani, In perpetual motion: travel behavior research opportunities and application challenges, Amsterdam, Elsevier Science Press, 2002.
[18] M.-S. Shang, L. Lü, Y.-C. Zhang, T. Zhou, Empirical analysis of web-based user-object bipartite ne tworks, Europhys. Lett. 90 (2010) 48006.
[19] S. D. Poisson, Recherches sur la Probabilité des Jugements en Matière Criminelle et en Matière Civile, Précédées des Règles générales du Calcul des Probabilités, Paris, Imprimeur-Libraire pour les Mathematiques, 1837.
[20] F. A. Haight, Handbook of the Poisson Distribution, New York, John Wiley and Sons, 1967.
[21] P. Reynolds, Call Center Staffing: The Complete, Practical Guide to Workforce Management, Lebanon, The Call Centre School Press, 2003.
[22] J. H. Greene, Production and Inventory Control Handbook (3rd ed.), New York, McGraw-Hill, 1997.
[23] H. R. Anderson, Fixed Broadband Wireless System Design, New York, Wiley, 2003.
[24] «运筹学»教材编写组, 运筹学, 北京, 清华大学出版社, 2005.
[25] 汪荣鑫, 随机过程, 西安, 西安交通大学出版社, 2006.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-4 21:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社