《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

社媒大数据的困境:微信的风行导致舆情的碎片化 精选

已有 3628 次阅读 2015-10-8 19:11 |个人分类:社媒挖掘|系统分类:科研笔记|关键词:大数据,挖掘,微信,微博| 大数据, 微博, 挖掘, 微信

最近热点追踪,做了一个 TPP 的大数据舆情调查,可惜数据源不给力。最近给我们提供数据的,微博怎么不见了?下面的挖掘片段是从 Twitter 以及中国的论坛做的,凑合看吧:

想做一个屠呦呦获诺奖的舆情调查,结果这么大的事件,数据也还是可怜,才6000个数据点(data points),而且还是以重复的新闻帖子为主。通常我们做社煤大数据调查,至少也有几十万个数据点,常常是百万千万级的,那样的挖掘才靠谱。当然,如果我另外付钱,应该可以从数据商得到更多的相关数据,可这个不是商用的调查,不能 justify 另外付钱。


巧妇难为无米之炊,海外得不到稳定、及时、大量和可靠的中文数据,所得到的数据经过层层火墙,辗转过来,七零八落,无语。

大数据的时代,数据为王。

国内的数据危机也出现了。这是最近与朋友谈到的一个话题。虽然如今 mobile 了,大数据了,数据总量直线上升,但是数据却越来越够不着了。

由于微信的风行,从微博抢走了很多人和流量。可是微信原则上是封闭的。结果是,公共平台的微博日渐衰落,微信虽然火了,对于公众的影响是内部的,外部无法看到全貌,连影子都看不清。舆情限于朋友圈,碎片化了。这对政府维稳是好事,但对于我们做大数据的是灾难,致命性的。

尽管微博的动态公众平台的特性使得它不可能被取代,然而,一个人的精力总是有限的,当我们的注意力和交流渠道越来越微信化以后,我们就没有精力去公众平台发声、参与或 follow,可是微信除了单个企业的公众号外,其他数据是不可能开放的。虽然微信是一座富矿,可开采挖掘的宝贝实在太多了,可是谁能够得着它呢?能想到的大约只有一两家可以够得着它,也都不能明着来的。普通研究者被排除出局。

比较一下西方,就更容易看清这种情况的严重性。与微博对应的社交媒体是 Twitter,方兴未艾,时效最强,反映最快,它的 firehose 服务(供挖掘的帖子水喉似源源实时而来)使得舆情的实时监控成为可能。这一个占据社会媒体总量的大部(约70%以上)。其次是 Facebook,它相当于微信,大约占据社会媒体的约 20%,它的时效也不错,仅次于 Twitter 短消息。Facebook 不同于微信的朋友圈在于,它的帖子默认为公开(这个默认是有相当争议的,因为很多本来以为是内部分享的信息成了公开的数据),这就产生了相当量的公开数据。其余的所有社会媒体,包括千百万的各类论坛,才占10%的比例,而且论坛的时效较差。(上述统计不包括 Instagram,Youtube,这些媒体也有相当量的文本数据)。这样看来对于舆情,只要抓住 Twitter 就搞定大半了,加上 Facebook 就相当周全了。无论什么热门话题,都有百万千万的数据点。所以,西方的舆情挖掘有够得着的大数据作为物质基础,没有国内的数据危机。

数据源的问题才是革命的根本问题。最好是能钻到微信团队内部去,玩个痛快,倒贴钱都可以。


【泥沙龙后记】

不过,这微信称霸中文世界,想想都瘆得慌。没的跟它平衡的啊,阿里也不行。

当年微博火的时候,腾讯祭出自己的微博来,却不见起色。可那个时候大家伙儿却不担心,新浪哪怕一统天下,不过就是一个中国的推特,数据都是公开的啊,人尽可用。这次不同,微信打着保护隐私的旗号,名正言顺把全世界纳入自己的囊下。

大唐木有反托拉斯法么?

未雨绸缪,微信应该成为目标了。

On the other hand,全中国人民都应该感谢微信,从古至今,国内国际,有哪个工具像微信一样如此拉近了人的距离?最近看同学群嗨翻了,各种叙旧,各种慰藉。可以计算一下微信的出现减少了多少忧郁症发病率。张小龙将来就是树个金像也是可以的。

【置顶:立委科学网博客NLP博文一览(定期更新版)】



屠呦呦获诺奖
http://blog.sciencenet.cn/blog-362400-926581.html

上一篇:《泥沙龙笔记:铿锵三人行》
下一篇:《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》

10 周少祥 姬扬 陆泽橼 沈律 章成志 戴德昌 翟自洋 吕乃基 姚伟 赵凤光

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-21 19:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部