|||
关于记忆性/长程相关性
今年上半年一直在做CCF-腾讯的科研项目——《社交关系对用户移动轨迹的影响》,我们基于QQ用户的出行轨迹记录讨论了社交关系与移动轨迹的相互影响,并在现有的估计预测算法上做了改进,相关成果我会陆续在博客上发布。
我们在讨论影响用户出行可预测性的时候引出了记忆性这个话题,记忆性显然存在于我们的日常出行行为中,比如我们经过若干步后会回到曾经访问过的地点,会以一定的周期返回某个地点,长距离的出行之后很可能紧接着另一次长距离的出行,等等。这样的记忆性也可以理解为长程相关性,在时间序列分析、统计物理研究中,long term/range correlation/memory这几个词的组合并没有严格的区分。说来也是巧合,2010年的时候我曾经用R/S法对图书借阅行为中的分形特征和长程相关性进行了研究[Fractal analysis on humandynamics of library loans. Physica A, 391 (24): 6617-6625],没想到历经4年,又做回了长程相关性这个话题,只不过研究的对象从时间变成了空间。重读文献,对自相关、长相关的理解有所加深,特别是Rybski的一组文章(该小组还有大名鼎鼎的S Havlin),他们关于人类行为的阵发特征、长相关性、规模增长率的研究前后出了很多成果,这里做简要小结,不仅学习研究方法,更要体会大牛们是如何做一组“成套”的研究。
l Scaling laws of human interaction activity. PNAS 106 2009.
系列文章的第一篇,研究的是短信通信行为(包括短信数量和社交网络)的增长规律、标度特征和长程相关性,具体研究内容和结论包括:
1. 研究短信数量的增长率,通过增长率的均值和标准差两个指标来进行讨论,发现均值几乎为常数,而标准差则随着初始短信数量幂律衰减,指数用beta表示,beta_real约为0.2,数据经过shuffle后beta_shuffle为0.5,即随机化后的增长率的波动表现为随机信号,无关联或短程相关性,对比显示真实数据不具有随机特征;
2. 采用DFA方法分析短信累积数量的长程相关性,根据短信发送量M对用户进行分组,各组的长相关指数H都在0.5~1之间,即表现出长程相关性,并且M与H成正比;
3. 解析得到H和beta之间的关系,beta=1-H;
4. 研究短信社交网络中用户度的增长规律,结果与1类似,增长率的均值表现为近似常数,而标准差随初始度幂律衰减,幂律指数与1的结果一致。
最后讨论未来工作——研究两种情形:即幂律/非幂律的时间间隔都可能表现出长相关特征,其底层机制是什么?见2012年的SR。
l Communication activity insocial networks growth and correlations. EPJB 2011.
2年后,该小组对原先的研究进行了深化和拓展,具体从如下多方面展开:
1. 分析短息收发的时间上的相关性,将研究对象从个体和群体拓展到有向边;
2. 在计算用户的累积短信收发量的增长规律的前提下继续分析增长率的概率分布,发现该分布表现为指数形式,与经济领域中公司增长率的规律相同;
3. 建立一个模型来模拟长相关与增长波动之间的关系;
4. 提出一个新的增长率来描述一对用户的短信量的共同增长;
5. 研究用户度和短信量之间的关系,发现用户度随着短信量幂律衰减,指数0.75;
6. 研究增长的波动规律、长程相关性和幂律的时间间隔之间存在联系。
l Communication activity in asocial network relation between long-term correlations and inter-event clustering. Scientific Report 2012.
这篇文章重点讨论的是长程相关性和幂律时间间隔之间的关系,分两种情形来研究,一是时间间隔服从幂律,表现出长相关;二是时间间隔不服从幂律但时间间隔之间有相互依赖,也表现出长相关,因而得出长程相关性可能是幂律时间间隔的结果,也可能是时间间隔之间的相互依赖的结果。具体从如下几个方面展开讨论:
1. 个体短信通信的长程相关性:DFA分析结果表明H在0.5~0.9之间,即具有长程相关性,并且H和短信量M成正比,且数据shuffle后H~M的曲线基本不变;
2. 个体短信通信的时间聚簇:时间间隔分布为幂律或者指数,情形1:幂律的时间间隔分布,有长相关性,数据shuffle后长相关性不变,说明长相关来源于幂律;情形2:非幂律的时间间隔分布,有长相关性,数据shuffle后长相关性消失,说明长相关来源于数据之间的相互依赖,shuffle后破坏了这种依赖故长相关消失;
3. 个体短信通信的时间间隔分布:时间间隔分布的幂律指数为miu,讨论M和miu之间的关系,发现M越大,miu越大(类似于Zhou T的EPL),然后讨论了H和miu的关系,即H可由miu计算得到;
4. 群体短信通信的长程相关性:群体层面上,数据shuffle后长相关特征消失,说明群体层面的长相关并不是幂律时间间隔分布的结果,是一种真正的相关性;
综合起来,H~M的关系是从三方面来研究的,real data、shuffledata和公式计算,发现个体用户H_real = H_shuf = H_miu,群体用户H_real != H_shuf,说明个体用户是幂律分布的长相关,而群体用户是真正的长相关,具有系统的自组织特征。
对比三篇文章,PNAS是占坑,将结论与经典的Gibrat Law对比并推广到更具普遍意义的社会经济系统,EPJB是对PNAS的修补与完善,而SR是对一个问题解释透彻,方法具有一定的借鉴意义。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-15 01:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社