智商情商网熵田园分享 http://blog.sciencenet.cn/u/Liweigang 数字之美,美于形式,更在内涵。

博文

微博研究系列:WISE,塞浦路斯新浪微博大赛

已有 4172 次阅读 2012-5-29 04:19 |个人分类:社交网络|系统分类:科研笔记| 新浪微博, Wise, 塞浦路斯, 微博转发预测

    第13届Web信息系统工程国际会议(13th International Conference of Information System Engineering - WISE,www.wise2012.cs.ucy.ac.cy)将于11月28-30日在塞浦路斯召开。该会议在网络信息技术方面颇有影响。特别是今年的大会竞赛项目以新浪微博(weibo.com) 为主题,更是会议的亮点。

    WISE竞赛的组织者从新浪微博收集12.9GB的客户关系数据和61.8GB的微博信息数据,提出两个竞赛项目:1) 微博海量数据查询性能(The performance track - T1);2) 微博转发阅读量预测 (The mining track  - T2)。结合笔者团队参赛情况,本文简单介绍WISE这两个竞赛项目,为新浪微博大赛造势。同时也为从事数据挖掘、智能网络等专业的研究生等国内参赛人员提供方便。


     
     图1 第13届Web信息系统工程国际会议,新浪微博的海量数据处理成为亮点

    1. WISE的第一个竞赛项目:海量微博数据查询性能

    WISE竞赛的组织者的第一项竞赛是对的客户关系数据和微博信息数据的查询性能比赛。参赛者开发对客户关系和微博转发相关的19个查询(Query)的使用系统,并使用由中国IMC公司推出的BSMA性能测试工具(Benchmark for Social Media Analysis - BSMA), 对这些查询进行通过量(Throughput)、延时(Latency)和数据规模(Scalability)等
三项指标进行性能分析。

    19个查询项目十分有效和实用。以下列出前5个查询项目,这些查询都需要从海量数据中理清客户关系,查得合乎以下关系的Top10、50或100人:
      查询1是挖掘某用户应该关注的Top-x,具体查询是找出该某用户的互粉的互粉。
      查询2是挖掘Top-x个某用户关注人的粉丝。
      查询3是挖掘Top-x个某用户关注人的关注人。
      查询4是挖掘Top-x个用户,同时被用户A和用户B所关注。
      查询5是挖掘Top-x个用户,同时被用户A和且是B的粉丝。

    2. WISE的第二个竞赛项目:微博转发阅读量预测

    WISE的第二项竞赛是预测新浪微博与6个社会事件有关的33个微博(Tweet)的转发(Reweet)情况。主办方界定一个时间戳(Timestamp),并给出在此时间前用户对这些微博的转发资料。参赛者应根据发表在30天内这33个微博,预测以下两个数据。

    1) M1:原微博被转发的次数。如果一个微博在不同的时间被转发两次,应计算两次。
   
    2) M2:原微博可能被阅读的次数。一次微博转发行为后微博可能被阅读数定义为转发该微博的用户粉丝数。原微博可能被阅读的总次数是所有转发行为后,该微博可能被阅读数之和。

    应当指出的是,在一个微博转发链上所有微博转发行为数应从该链的根部算起。
   
    相关的6个社会事件是这样的:1) 史蒂夫•乔布斯之死,2011年10月5日;2) 抚州市连环爆炸案,2011年5月26日;3) 2011年日本东北地方太平洋近海地震,2011年3月11日;4) 李娜赢得2011年法国网球公开赛,2011年6月2日。5) 小米手机发布,2011年8月16日;6)  药家鑫撞人致死事件,2010年10月20日。这些事件都引起网友重视,在新浪微博广为评论和传播。

    笔者感谢第13届Web信息系统工程国际会议组织者和新浪微博,为大家提供这次研究机会。同时也感谢团队成员的辛勤工作。本博将不定期介绍这方面的工作,敬请博友稍候。

    相关博文:
          微博研究系列:Mining微博 Feeling小米
          微博研究系列:北京KDD盛会 腾讯微博大赛
          微博研究系列:科学网微博三问
          微博研究系列:奇妙的微博转发和互粉



http://blog.sciencenet.cn/blog-652078-576007.html

上一篇:微博研究系列:Mining微博 Feeling小米
下一篇:KDD世界杯揭晓 腾讯微博赛落帷

2 曾新林 曹聪

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-4-20 21:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部