《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【大数据挖掘:方崔大战一年回顾】

已有 5703 次阅读 2014-1-5 18:11 |个人分类:社媒挖掘|系统分类:博客资讯| 大数据, 转基因, 方舟子, 挖掘, 小崔

以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。


据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。


挖掘的数据来源是目前在我们现有的 index 中的中文简体的社会媒体(因与内容商协商仍在进行中,数据并不完整,但是数据对于两位是一视同仁的。如果有足够的兴趣,也可以继续做一个繁体中文的类似挖掘,看看海外社会媒体如Twitter对大战的反应如何。)另一个需要说明的是,挖掘系统仍处于 beta 阶段,bugs 在所难免,但是多次由第三方判别的质量检测(QA)显示,褒贬抽取的准确度均在 85% 以上。


挖掘区间是 2013 年元月五日 至 2014 年元月五号,整一年。


 

两位都是大名人,所以这次挖掘的相关数据量上相差不大,都在八万条左右。但一年来总体褒贬指数小崔(41度)远远高于小方(零下5度)。

 


把两位的一年舆情趋势(Timeline)放在一起对照如下。


 


下面的 Timeline 把两位的褒贬曲线在同一个座标里交叠比较,更容易做对比分析。


最有意思的是两位的社会媒体形象曲线的对比。小方也有起伏,但是小崔的跌宕起伏的幅度远远大于小方。虽然小崔的总体评价远高于小方,但是去年五月到七月之间,突然一跌千丈(那个时段发生了什么状况?),陷入谷底(六月16日零下92度,此前的低谷有六月2日的零下88度)。在五月五号到六月30之间,小崔的社会媒体评价度低于小方,此后恢复正常。除了五月六月的小崔低谷,小崔在其他时段似乎一直表现不错,社会媒体形象高于小方。


 

也许把时间曲线图的对比分成按日、按周和按月来展示,其全貌和趋势就更清晰了:


先看过往一年的两位形象对比曲线图:


(1)褒贬度按每日数据展示(net sentiment by days):

 

(2)褒贬度按每周数据展示(net sentiment by weeks):



 


(3)褒贬度按每月数据展示(net sentiment by months):


 

小方似乎习惯于单方面宣告胜利,说 (大意):
经过方崔大战,方还是那个方,崔已不是那个崔(形象完了)

上面的形象曲线图说明,不是这样的。小崔陷入形象危机只有两个月,目前早已恢复,形象与平时一样比小方正面。


刚有朋友指出:崔永元碰瓷方舟子,是九月份才开始的,此前崔算是方的支持者。5-7月崔掉沟里(如果真掉了的话)与方没有一毛钱关系。小崔的低谷是系统的 bug 还是其他的公关失当,需要进一步 drill down 才能得到答案。先存疑。

下面是一年的三幅热议度(mentions)曲线图:



 

 


 

数据量上看,一直比较平稳上升,只是到年底突然呈现一个高峰。与两位相关的数据大体同步。


由于双方的粉丝都很激烈,为免过度解读引起新的口水战,下面只提供数据,不再做解读。


共现主题词:

 
 


对二位的社会媒体情绪云图:


 
 


褒贬理由的分布:



 

 



喜欢的理由:
 


不喜欢的理由:


 

所调查的数据来源种类:


 


所调查的数据分布:


 


谁发声最大:


 

 

 


社交媒体样本:


 


 


DIsclaimer: still in beta, use at your own risk.  bug report is welcome.


后续调查见:

【大数据挖掘:“苦逼”小崔2003年5-7月为什么跌入谷底?】 2014-01-06

【置顶:立委科学网博客NLP博文一览(定期更新版)】



转基因问题
https://blog.sciencenet.cn/blog-362400-756180.html

上一篇:翻旧照片,原来 baby 生日蛋糕是酱紫吃地
下一篇:社媒是个大染缸,大数据挖掘有啥价值?
收藏 IP: 192.168.0.*| 热度|

10 王秀玉 许培扬 陈安 刘全慧 武夷山 蔣勁松 孙根年 徐晓 薛宇 biofans

该博文允许注册用户评论 请点击登录 评论 (14 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 09:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部