《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

大数据淹没下的冰美人(之一)

已有 5826 次阅读 2015-5-12 15:35 |个人分类:社媒挖掘|系统分类:科研笔记| 范冰冰, 挖掘, 社会媒体



范冰冰可是当下红遍天下的演艺界女皇式巨星,粉丝遍及海内外。她是社会媒体大数据赞誉和吐槽的经久不衰的话题人物。


深度挖掘和解析大数据淹没下的范冰冰,应该是一件既符合娱乐精神又有启发意义的工作。准备做一个系列来,用我们的深度挖掘引擎,看看社会媒体口水大数据的一片混沌中到底隐含了几多信息,哪些是众所周知的,哪些是出人预料的。


华裔女星中,一直不太喜欢范冰冰,主要是觉得她的形象不接地气:女神或妖精,总之不似人类,与我们喜欢的 邻家女孩(girl next door)类型(如 徐静蕾 高圆圆 这类)相距甚远。然而,伊人的《武媚娘传奇》热播以后,惊艳叹服之余,遂亦加入粉丝行列。尤其是年轻时的武媚娘扮相,美得简直不像话,还让不让人活?



先报告一下这次挖掘的基本数据:


时间跨度是过去 27 个月(2013年二月到2015年五月)的中文社会媒体(包括繁体和粤语文字)。


下图是挖掘总览:

计 113万 数据点,70 多万条帖子,可达近 73 亿的眼球浏览,可以算是大数据了吧。(关于此话题两年多来的社媒数据量当然远远大于此数,可自家库里现在的样本就这么多,再多就要给内容分销商追加额外的数据购买费了。这个样本量比起传统的问卷调查高出至少两个数量级,作为情报挖掘,已经足以满足统计意义上的代表性要求了。)

冰美人的社会媒体形象相当不错,褒贬指数(Net Sentiment)高达 62%,这在娱乐圈公众人物中也算是高高在上了,八万五千条赞誉远多于 一万九千条吐槽。范爷威武!

1,134,741
Mentions
708,353
Posts
7,290,684,005
Potential Impressions
62%
Net Sentiment
85,031
Positive
19,888
Negative









下图是范冰冰话题过去27个月的热度(数据点和眼球数)和褒贬的曲线图。热度起伏较大,应该与她主演的影视节目的宣传和开播期相关。反映形象消长的褒贬指数变化不大,基本能保持高位,范冰冰仍然处于事业鼎盛期,显然极受大众欢迎。


下图是这次自动调查的数据来源。最大的来源是 twitter,14万4,其次是天涯论坛(两万四千条)和百度贴吧(两万出头)。再往下依次是香港 discuss.com.hk 网站,tumblr,club.kdnet.net, bbs.hupu.com, kaixin001.com, 西祠,豆瓣等,大名鼎鼎的脸书(facebook)和新浪微博 (weibo.com) 只有两三千的帖子来源。(很遗憾,不包含微信,微信数据由于隐私限制,在可预见的将来,我们的挖掘还够不着:其实微信当下才是社会媒体的旗舰,其他所有中文社会媒体全加起来也没有微信所达到的规模、代表性和影响力。腾讯的老爷们,你何时开放哪怕是部分的数据?)



下图给数据来源做了分类,其中论坛占 60% ,新闻网站 20%,微博数据只有 8%。

这是数据来源地的地理分布。


欲知挖掘出来冰美人究竟有哪些有意思的信息,且听下回分解。


【冰美人社媒大数据挖掘系列】

大数据淹没下的冰美人(之二) 2015-05-13

大数据淹没下的冰美人(之三): 喜欢的理由 

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五):  星光灿烂谁为最?

【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-889603.html

上一篇:【社媒挖掘:成都暴打事件中的男司机和女司机】
下一篇:吐槽:电话回访
收藏 IP: 192.168.0.*| 热度|

6 武夷山 刘全生 徐晓 张婷婷 tuner bridgeneer

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-21 07:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部