《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【新智元笔记:再谈舆情的抽取挖掘】

已有 1997 次阅读 2016-1-25 16:56 |个人分类:立委科普|系统分类:教学心得|关键词:舆情,抽取,挖掘,sentiment,analysis| Analysis, 舆情, 挖掘, 抽取, sentiment

【立委按】本笔记以前反复论过(见文末的【相关】),也不妨再整理出来。有道是,重要的事情说三遍。其实,真正重要的论点岂止要三遍,要说n遍(n>3),不要怕车轱辘话。要喋喋不休,要苦口婆心,因为这是一个信息爆炸的时代,一个飞速旋转的世界,每个人都很匆忙,无数的碎片化信息每天冲击我们趋于麻痹的神经,任何缺乏冗余的信息,都容易被淹没忽略。

其实,前信息时代的伟人也不乏冗余大师当年看马克思《资本论》,对老马以不同角度反复论证基本概念(商品,等价交换,价值与价格,劳动与剥削等)印象深刻。后来读乔姆斯基对美国外交政策的批判,也发现了他万变不离其宗的核心观点,冗余度令人惊诧。毛委员说,阶级斗争要年年讲月月讲天天讲,最后讲出了一个触及八亿人民灵魂殃及千万人的文化大革命,也算是一个信息传播的成功案例,尽管是后果严重的反面例子。

洪诗人云:伟爷勃发产量高,一连四篇似发镖。眼神身手不服老,设厂可研NLP炮!


白: 英语舆情咋说?和sentiment analysis可以划等号吗?

我: 原来就是这个术语,后来有其他的,譬如 (public)opinion mining。严格说 sentiment analysis 属于抽取,opinion mining 属于挖掘。是两个层面,抽取层面面对的是语言的树,而挖掘层面面对的是语料库的语言之林。对于一颗颗语言的树,sentiment extraction 才是更准确的说法,不过大家都习惯了沿用 sentiment analysis,这个里面最多报道的工作实际是 sentiment classification,但classification只是sentiment analysis 的一个皮毛。
白: opinion mining太窄。
我: 舆情舆情,有舆有情,舆就是 public opinion,情才是 social sentiment, 后来为了统一在大家习惯的 sentiment 的 umbrella 下面,我们把情限定于 emotions 的表达,但 emotions 的表达只是一种情绪的挖掘,可以与 classification 较好对应,不管是分两种情绪(褒贬),三种情绪(褒贬中),还是四种情绪(喜怒哀乐),或 n 种,总之是 classification。但是 deep sentiment analysis 不能停留在情绪的 classification ,必须找到情绪背后的东西。
白: 涵盖不了隐含的对己有利或不利的客观中性叙述这种情况。
我: exactly,这就是为什么我们强调要挖掘情绪背后的理由,因为没有人只有情绪(喜欢不喜欢)和结论(采纳不采纳),而永远不给理由的,因为前者仅仅是发泄,后者才是为了传达、说服或影响人的具体性的情报,所谓 actionable insights。也正因为此,我们发现 deep sentiment analysis 是 NLP 应用中最难啃的果子了,并不是很多人做了个 sentiment classifier 就可以声称能挖掘的舆情。
白: 比如下雨,有人盼,有人怕,所以opinion不能概括这种情况,可以forget it。
我: 任何一个话题,包括下雨,都可以挖掘出围绕这个话题的情绪、behavior(支持反对等)、好恶的理由(为什么盼它或怕它),只要公众有这种议论在。
白: 还是sentiment analysis好。
我: 挖掘的主要服务有二:一个是把这些情报统计出来,给出概貌,不管是制作成图表还是使用词云(word clouds)等可视化的表达。第二就是允许用户从这些情报开始做任意的 drill down 或顺藤摸瓜。很多时候我们只展示了前者,其实真正的价值在后面,因为后者才是系统真正的威力,前者不过是静态的报表而已。
雷: 情绪与具体论点对应。有多少论点,每个论点附着多少情绪。论点是干,情绪是枝叶。
我: 理由是论点,情绪是表象。



【相关】

 【立委科普:自动民调】

 【立委科普:舆情挖掘的背后】

 【立委科普:基于关键词的舆情分类系统面临挑战】

Coarse-grained vs. fine-grained sentiment extraction

 “大数据与认识论”研讨会的书面发言(草稿)

【喋喋不休论大数据(立委博文汇总)】


【置顶:立委科学网博客NLP博文一览(定期更新版)】  





http://blog.sciencenet.cn/blog-362400-952432.html

上一篇:【新智元笔记:关于汉语介词的兼语句型,兼论POS】
下一篇:【围脖:语言的进化是朝着简单的方向还是相反的?】

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-20 23:00

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部