|||
最近热点追踪,做了一个 TPP 的大数据舆情调查,可惜数据源不给力。最近给我们提供数据的,微博怎么不见了?下面的挖掘片段是从 Twitter 以及中国的论坛做的,凑合看吧:
想做一个屠呦呦获诺奖的舆情调查,结果这么大的事件,数据也还是可怜,才6000个数据点(data points),而且还是以重复的新闻帖子为主。通常我们做社煤大数据调查,至少也有几十万个数据点,常常是百万千万级的,那样的挖掘才靠谱。当然,如果我另外付钱,应该可以从数据商得到更多的相关数据,可这个不是商用的调查,不能 justify 另外付钱。
巧妇难为无米之炊,海外得不到稳定、及时、大量和可靠的中文数据,所得到的数据经过层层火墙,辗转过来,七零八落,无语。
大数据的时代,数据为王。
国内的数据危机也出现了。这是最近与朋友谈到的一个话题。虽然如今 mobile 了,大数据了,数据总量直线上升,但是数据却越来越够不着了。
由于微信的风行,从微博抢走了很多人和流量。可是微信原则上是封闭的。结果是,公共平台的微博日渐衰落,微信虽然火了,对于公众的影响是内部的,外部无法看到全貌,连影子都看不清。舆情限于朋友圈,碎片化了。这对政府维稳是好事,但对于我们做大数据的是灾难,致命性的。
尽管微博的动态公众平台的特性使得它不可能被取代,然而,一个人的精力总是有限的,当我们的注意力和交流渠道越来越微信化以后,我们就没有精力去公众平台发声、参与或 follow,可是微信除了单个企业的公众号外,其他数据是不可能开放的。虽然微信是一座富矿,可开采挖掘的宝贝实在太多了,可是谁能够得着它呢?能想到的大约只有一两家可以够得着它,也都不能明着来的。普通研究者被排除出局。
比较一下西方,就更容易看清这种情况的严重性。与微博对应的社交媒体是 Twitter,方兴未艾,时效最强,反映最快,它的 firehose 服务(供挖掘的帖子水喉似源源实时而来)使得舆情的实时监控成为可能。这一个占据社会媒体总量的大部(约70%以上)。其次是 Facebook,它相当于微信,大约占据社会媒体的约 20%,它的时效也不错,仅次于 Twitter 短消息。Facebook 不同于微信的朋友圈在于,它的帖子默认为公开(这个默认是有相当争议的,因为很多本来以为是内部分享的信息成了公开的数据),这就产生了相当量的公开数据。其余的所有社会媒体,包括千百万的各类论坛,才占10%的比例,而且论坛的时效较差。(上述统计不包括 Instagram,Youtube,这些媒体也有相当量的文本数据)。这样看来对于舆情,只要抓住 Twitter 就搞定大半了,加上 Facebook 就相当周全了。无论什么热门话题,都有百万千万的数据点。所以,西方的舆情挖掘有够得着的大数据作为物质基础,没有国内的数据危机。
数据源的问题才是革命的根本问题。最好是能钻到微信团队内部去,玩个痛快,倒贴钱都可以。
【泥沙龙后记】
不过,这微信称霸中文世界,想想都瘆得慌。没的跟它平衡的啊,阿里也不行。
当年微博火的时候,腾讯祭出自己的微博来,却不见起色。可那个时候大家伙儿却不担心,新浪哪怕一统天下,不过就是一个中国的推特,数据都是公开的啊,人尽可用。这次不同,微信打着保护隐私的旗号,名正言顺把全世界纳入自己的囊下。
大唐木有反托拉斯法么?
未雨绸缪,微信应该成为目标了。
On the other hand,全中国人民都应该感谢微信,从古至今,国内国际,有哪个工具像微信一样如此拉近了人的距离?最近看同学群嗨翻了,各种叙旧,各种慰藉。可以计算一下微信的出现减少了多少忧郁症发病率。张小龙将来就是树个金像也是可以的。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 22:15
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社