|||
Web2.0时代,社会事件与网络信息的传播是相辅相成的,特别是微博的出现以及与大众化手机的绑定,使得两者关系更是微妙和重要。突发事件除了本身结果对社会的影响,同时形成了网络信息之源。而信息在网络的传播模式、速度和范围,又对社会促发震荡型反馈,形成对原事件更为深刻和广泛的影响。所以微博机制研究如同发展生态、能源、食品和工程技术一样有益,算得上现代科技领域的一花独秀。
在进行微博转发预测研究时,微博的发布者和转发者标签、微博内容和相关事件的社会背景、以及推荐和转发历史资料等等的分析都十分重要。研究人员需要进行必要的假设,归纳特性和建立数学模型。例如把微博发布过程简化为泊松分布或正态分布等。
2012年Web信息系统工程国际会议(WISE)举办对新浪微博海量数据处理和转发预测竞赛项目,笔者团队对2009年至2012年初中外发生的44个重要社会事件相关的新浪微博历史数据进行分析,观察涉及各事件的微博数量分布情况,初步归纳出微博机制的以下分类:1)按某事件相关微博统计数与标准分布函数相似程度划分为:脉冲型、三角(梯)型、正态型和泊松型等;2)按某事件相关微博统计数的分布特点划分为:重复型、相关型和周期型等。这些分类仅为笔者的初步设想,一家之言, 谨此抛砖引玉,与同行磋商 。
1. 微博分布的相似函数
常见标准分布函数有:脉冲型、三角(梯)型、正态型和泊松型等。新浪微博的分布也具备这些特性。以下介绍脉冲型和正态型两个分布函数和举例。
1)脉冲型
2011年5月2日周一晨,奥萨马·本·拉登在美国的一此军事行动中,于巴基斯坦境内的一座豪宅内,被海豹第六分队击毙,终年54岁。此事在全球社交网络上议论如潮,在新浪微博上也不例外。图一显示新浪微博当天的微博发行数达5万4千多,在图上形成一个强脉冲。但随后网上对此事的讨论即停,算是新浪微博一绝。
图一 新浪微博热议本·拉登之死,形成脉冲分布
2)正态分布型
2010年底到2012年初,新浪微博对房价的讨论非常激烈,最多每天发博近1万6千条。主要涉及房价高 、购房难、经济适用房、廉价房和限价房等议题。 图二显示新浪微博数量的分布接近正态分布。
图二 新浪微博对房价讨论的微博数量分布接近正态分布函数
2. 微博分布特点
不同议题的新浪微博分布,有不同的特点。以下列举相关性和周期性两个特点和举例。
1)相关性
2011年3月11日14时46分,日本东北地方太平洋近海地震 ,造成巨大物质和人力损失。地震发生后,截至当天下午18时的4个小时内,新浪微博上发布日本地震相关的微博近450万条,其中在日本的微博用户发出了30万条。一些用户还发微博短信找人,一时间传为佳话。
更有意思的是,有关对日本地震的微博,竟引起新的一轮对房价的讨论。图三显示日本地震期间新浪微博用户发出的微博数量统计和分布。其中左边的竖标为有关地震的微博日平均数,右边的竖标显示有关房价讨论的微博统计和分布。
图三 日本地震期间新浪微博有关地震和房价讨论的微博统计和分布。
2)周期型
小米手机是小米公司研发的一款高性能发烧级智能手机。小米M1型于2011年8月16日发布,售价1999元,主要针对手机发烧友,采用线上销售模式,是世界上首款双核1.5GHz的智能手机。不少网友对小米情有独钟,在微博热议。
有趣的是,在新浪发微博讨论小米的发烧友很有规律,每周二至周四频发微博,周五至周一稍事休息。图四展示有关小米的微博统计数和分布。其中实线为每周平均发博数,虚线为周五平均发博数。
图四 新浪微博对小米手机的发烧微博统计数和分布
感谢WISE主办方和新浪微博提供海量数据。感谢TransLab团队友好合作和努力工作。
参考资料
Edans F. O. Sandes, Li Weigang, and Alba C. de Melo, Optimizing social network queries: Weibo case study. Research report, University of Brasilia, 2012。
相关博文:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 01:21
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社