|||
范冰冰可是当下红遍天下的演艺界女皇式巨星,粉丝遍及海内外。她是社会媒体大数据赞誉和吐槽的经久不衰的话题人物。
深度挖掘和解析大数据淹没下的范冰冰,应该是一件既符合娱乐精神又有启发意义的工作。准备做一个系列来,用我们的深度挖掘引擎,看看社会媒体口水大数据的一片混沌中到底隐含了几多信息,哪些是众所周知的,哪些是出人预料的。
华裔女星中,一直不太喜欢范冰冰,主要是觉得她的形象不接地气:女神或妖精,总之不似人类,与我们喜欢的 邻家女孩(girl next door)类型(如 徐静蕾 高圆圆 这类)相距甚远。然而,伊人的《武媚娘传奇》热播以后,惊艳叹服之余,遂亦加入粉丝行列。尤其是年轻时的武媚娘扮相,美得简直不像话,还让不让人活?
先报告一下这次挖掘的基本数据:
时间跨度是过去 27 个月(2013年二月到2015年五月)的中文社会媒体(包括繁体和粤语文字)。
下图是挖掘总览:
计 113万 数据点,70 多万条帖子,可达近 73 亿的眼球浏览,可以算是大数据了吧。(关于此话题两年多来的社媒数据量当然远远大于此数,可自家库里现在的样本就这么多,再多就要给内容分销商追加额外的数据购买费了。这个样本量比起传统的问卷调查高出至少两个数量级,作为情报挖掘,已经足以满足统计意义上的代表性要求了。)
冰美人的社会媒体形象相当不错,褒贬指数(Net Sentiment)高达 62%,这在娱乐圈公众人物中也算是高高在上了,八万五千条赞誉远多于 一万九千条吐槽。范爷威武!
下图是范冰冰话题过去27个月的热度(数据点和眼球数)和褒贬的曲线图。热度起伏较大,应该与她主演的影视节目的宣传和开播期相关。反映形象消长的褒贬指数变化不大,基本能保持高位,范冰冰仍然处于事业鼎盛期,显然极受大众欢迎。
下图是这次自动调查的数据来源。最大的来源是 twitter,14万4,其次是天涯论坛(两万四千条)和百度贴吧(两万出头)。再往下依次是香港 discuss.com.hk 网站,tumblr,club.kdnet.net, bbs.hupu.com, kaixin001.com, 西祠,豆瓣等,大名鼎鼎的脸书(facebook)和新浪微博 (weibo.com) 只有两三千的帖子来源。(很遗憾,不包含微信,微信数据由于隐私限制,在可预见的将来,我们的挖掘还够不着:其实微信当下才是社会媒体的旗舰,其他所有中文社会媒体全加起来也没有微信所达到的规模、代表性和影响力。腾讯的老爷们,你何时开放哪怕是部分的数据?)
下图给数据来源做了分类,其中论坛占 60% ,新闻网站 20%,微博数据只有 8%。
这是数据来源地的地理分布。
欲知挖掘出来冰美人究竟有哪些有意思的信息,且听下回分解。
【冰美人社媒大数据挖掘系列】
大数据淹没下的冰美人(之二) 2015-05-13
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 16:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社