《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【立委科普:舆情挖掘的背后】 精选

已有 9425 次阅读 2013-2-4 10:22 |个人分类:立委科普|系统分类:科普集锦| 大数据, NLP, 科普, 舆情, 挖掘



中文版 "品牌舆情图" 设计方案展示后,有不少反馈,其中有朋友认为,四极二维(love/hate,like/dislike)的图示不自然,因为它们实际上是在同一个维度上。今天就这个题目多写几句科普式随笔,看看舆情自动挖掘以及舆情表达(representation)背后的设计思想。

褒贬在客观语言事实上确实是一个连续体,因此 把 love ... like ...dislike ...hate, 放在一个连续轴上 makes sense,特别是如果褒贬分析做得细的话。但是实际上,多数褒贬分析系统做得很粗,最粗的就是褒、贬、中三分法。我们算做得细的,是切了五刀,强褒(love),弱褒(like),中(default),弱贬(dislike),强贬(hate)。这是我们褒贬分析的目标和结果。如果对具体语言单位要切出比5更细的刀法,不是不可能,而是没必要,因为对大数据进行褒贬挖掘的时候,还有一个褒贬数量的因素可以参与计算,总体的量可以弥补个体的质之粗疏

于是褒贬指数(所谓净情绪)出笼了,它是企业最想知道的情报之一。就是通过褒贬语的数量比,来看网民的总体情绪如何。这个褒贬指数 by nature 是连续的,因为每个品牌的褒贬量都可能不同。

理论上,当然可以 argue 在计算褒贬指数的时候,不但用褒贬的量,而且每个量应该根据褒贬程度来加权或discount,这样个体语言的褒贬分类就可以整合到整体大数据褒贬指数的一根轴上去了,其结果理应更反映实际舆情。但实际上,这样做也没什么必要,因为褒贬的个体加权或discount与否,最终结果大同小异。何况统一到一个维轴上,我们系统的细颗粒度(5刀)就隐藏起来不显了,容易混同于那些偷懒只切两刀的系统(他们根据数量也可以计算出净情绪来)。

横轴是为强调情绪强度(intensity),这一点很多系统不做,或不会做。如今抽取挖掘情绪强度已然成为舆情系统之间评价的一个 feature 了。而客户似乎也欣然接受这种表达了,客户迄今的反应是这样四极表达直观简捷。

我们另外一个更重要的图示工具是 trends,在那里褒贬指数依然存在,但是情绪强度被时间的维度取代了,这样出来的曲线可能更有意义,可以看到一个品牌的形象消长。缺点是把褒贬舆论分解到时间长河中,数据量有时候不足,结果就显得不太牢靠。而《品牌舆情图》这种图示往往以一年的数据量作为基础,常常有几十万、几百万个数据点(data points),反映出来的形象真实可靠,即便有杂音,也被大数据自然过滤掉了。

所以说,情绪分类过细的思路不是大数据(big data)的思路。

从个体而言,没错,语言表达中 love 比 like 强烈,crazy 比 love 强,love deeply 比 love 强,very crazy 比 crazy 强,insane 似乎比 crazy 更强,这样下去,别说三刀、五刀,就是 10 刀也不能区别种种细微差别及其语义组合的可能性,因为人的情绪是连续体,其表达也相应千变万化。

但是,我们还是要用离散来model连续,而且要限制离散度,以便宏观把握:语义上太细琐了标准就难掌握,难以操作和实现,最重要的是,劳而无功。作为连续的模型化,切五刀已经很不错了,这也正好与多数客户调查使用五颗星的制度相吻合(学生总成绩的评判也多采用五分制,偶尔采用两分制 pass/not pass,单个测验为方便计算采用百分制,但随后还是要整合到五分制去)。

舆情(舆论情绪/舆论情势)是什么?人民(或网民)的声音。

人民是由个体组成的,
网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社会媒体大数据。在大数据的尺度下,个体声音的过细分类没有太大意义,因为只要数据足够大,其最终舆情结果(结论)是不变的。举例来说,10万个正面呼声,100万个负面呼声,其综合舆情结果并不会因为这10万中有 1万crazy,1万love,8万like,负面中有10万fuck,10万hate,80万dislike 等等而有大的改变。无论如何计算,结论依然是天怒人怨。

again,采样大就可以弥补个体颗粒度的粗疏,这在机器学习领域被一再证明,也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。

这么说,为舆情挖掘,情绪分类褒贬两分法(thumbs-up thumbs-down)就够了,或者最多三分法?语言学可以退出舞台了?

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌的数据量就往往不够,另外很多分析要求对数据进行切割,比如从时间维度的切割可以反映舆情的消长(trends),是制定决策时非常重要的情报,可是大数据一切隔往往就成了小数据,没有语言学上比较细致的分析来弥补,舆情分析就不靠谱,没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后的动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。

从问答(question answering)系统的角度看,why 的问题和 how 的问题是公认的最难自动回答的问题。我们从根本上解决了这个问题。

镜子提到用 like/dislike 表达品牌的优劣作为情绪之外的另一维度,这实际是很有见解的一个思路。具体说就是,一维专门表达情绪(管它强度),另一维表达优劣(pros/cons),作为情绪的理由。这样的图示也许更insightful,但是有相当困难。维度通常只善于表达可以归类的概念(比如褒贬,比如烈度),而pros/cons千差万别,不同领域不同产品也很不同,不好统一归类到一根轴上去展示。除非 pros n cons 的具体内容隐而不显,likes/dislikes 这个维度只反映提到 pros/cons 的数量,否则似乎是不可行的。


我们目前表达pros/cons(也叫 likes/dislikes,用其可数名词的复数,正好与镜兄提议吻合),常常用 top n 来表达,对于成千上万的 pros/cons,只选取 top n (如 top 10)利用 pie chart 或者 word cloud 来显示,以此来应对不好归纳的困难。



RE:投票的时候,每个人只有一票,不管是like love crazy 还是 can't live without 都只有一票的用处。
一人一票制就是要排除 passion indensity
作者: 立委 (*)
日期: 02/04/2013 14:12:25

就客户而言,一个苹果饭可能会买n个iPhones,比如作为礼物给家人、朋友等,因此 intensity 加个权也许还有一点意义。

anyway,大数据统计时,一人一票足矣。

加权与否,只要一视同仁,对于大数据(譬如一州的选民),最终的投票(或舆情)统计结果是基本不变的。

有意思的是,网上客户反馈机制有二分法(喜欢/讨厌),有五星制(Amazon review),而 Facebook 和 Google + 则只允许正面

据说是因为允许人扔网络臭鸡蛋影响他们的客户。

即便如此,大数据下,褒贬还是可以计算得很靠谱。

一个帖子的点击数多,可是却很少有 + 的,往往是不好的帖子。褒贬之间的分野可以设定一个经验阀值。

至于去网上购物(如Amazon),我总是选择4星以上反馈基数大的商家,价格处于中下即可。不敢选择价格最好,但是反馈基数少的,也尽量不选4星下的商家。这个策略从未失手过,因为商家的信誉 at stake,他不会也不值当胡来。还是信息流通好哇。

【立委名言:数据改变生活,技术改变世界,拥抱大数据】


【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-659319.html

上一篇:饶毅教授为什么多次判断错误?
下一篇:应“近称、远称和中称”的解说法
收藏 IP: 192.168.0.*| 热度|

11 张婷婷 曹聪 王芳 傅蕴德 武夷山 李宇斌 徐大彬 袁圳伟 韦永梅 zhanghuatian hangzhou

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-21 21:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部