【立委按】本笔记以前反复论过(见文末的【相关】),也不妨再整理出来。有道是,重要的事情说三遍。其实,真正重要的论点岂止要三遍,要说n遍(n>3),不要怕车轱辘话。要喋喋不休,要苦口婆心,因为这是一个信息爆炸的时代,一个飞速旋转的世界,每个人都很匆忙,无数的碎片化信息每天冲击我们趋于麻痹的神经,任何缺乏冗余的信息,都容易被淹没忽略。
其实,前信息时代的伟人也不乏冗余大师。当年看马克思《资本论》,对老马以不同角度反复论证基本概念(商品,等价交换,价值与价格,劳动与剥削等)印象深刻。后来读乔姆斯基对美国外交政策的批判,也发现了他万变不离其宗的核心观点,冗余度令人惊诧。毛委员说,阶级斗争要年年讲月月讲天天讲,最后讲出了一个触及八亿人民灵魂殃及千万人的文化大革命,也算是一个信息传播的成功案例,尽管是后果严重的反面例子。
洪诗人云:伟爷勃发产量高,一连四篇似发镖。眼神身手不服老,设厂可研NLP炮!
白: 英语舆情咋说?和sentiment analysis可以划等号吗?
我: 原来就是这个术语,后来有其他的,譬如 (public)opinion mining。严格说 sentiment analysis 属于抽取,opinion mining 属于挖掘。是两个层面,抽取层面面对的是语言的树,而挖掘层面面对的是语料库的语言之林。对于一颗颗语言的树,sentiment extraction 才是更准确的说法,不过大家都习惯了沿用 sentiment analysis,这个里面最多报道的工作实际是 sentiment classification,但classification只是sentiment analysis 的一个皮毛。
白: opinion mining太窄。
我: 舆情舆情,有舆有情,舆就是 public opinion,情才是 social sentiment, 后来为了统一在大家习惯的 sentiment 的 umbrella 下面,我们把情限定于 emotions 的表达,但 emotions 的表达只是一种情绪的挖掘,可以与 classification 较好对应,不管是分两种情绪(褒贬),三种情绪(褒贬中),还是四种情绪(喜怒哀乐),或 n 种,总之是 classification。但是 deep sentiment analysis 不能停留在情绪的 classification ,必须找到情绪背后的东西。
白: 涵盖不了隐含的对己有利或不利的客观中性叙述这种情况。
我: exactly,这就是为什么我们强调要挖掘情绪背后的理由,因为没有人只有情绪(喜欢不喜欢)和结论(采纳不采纳),而永远不给理由的,因为前者仅仅是发泄,后者才是为了传达、说服或影响人的具体性的情报,所谓 actionable insights。也正因为此,我们发现 deep sentiment analysis 是 NLP 应用中最难啃的果子了,并不是很多人做了个 sentiment classifier 就可以声称能挖掘的舆情。
白: 比如下雨,有人盼,有人怕,所以opinion不能概括这种情况,可以forget it。
我: 任何一个话题,包括下雨,都可以挖掘出围绕这个话题的情绪、behavior(支持反对等)、好恶的理由(为什么盼它或怕它),只要公众有这种议论在。
白: 还是sentiment analysis好。
我: 挖掘的主要服务有二:一个是把这些情报统计出来,给出概貌,不管是制作成图表还是使用词云(word clouds)等可视化的表达。第二就是允许用户从这些情报开始做任意的 drill down 或顺藤摸瓜。很多时候我们只展示了前者,其实真正的价值在后面,因为后者才是系统真正的威力,前者不过是静态的报表而已。
雷: 情绪与具体论点对应。有多少论点,每个论点附着多少情绪。论点是干,情绪是枝叶。
【相关】
【立委科普:自动民调】
【立委科普:舆情挖掘的背后】
【立委科普:基于关键词的舆情分类系统面临挑战】
Coarse-grained vs. fine-grained sentiment extraction
“大数据与认识论”研讨会的书面发言(草稿)
【喋喋不休论大数据(立委博文汇总)】
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-952432.html
上一篇:
【新智元笔记:关于汉语介词的兼语句型,兼论POS】下一篇:
【围脖:语言的进化是朝着简单的方向还是相反的?】