博文

《扫了 sentiment，NLP 一览众山小：从“良性肿瘤”说起》

已有 3605 次阅读 2016-7-1 16:01 |个人分类:立委科普|系统分类:科研笔记| 情感分析, sentiment, 舆情挖掘, 主观语言

高，广，宽，深，大，粗，长 ...... 这些形容词很有意思，本来它们应该是中性的，因为作为逻辑形容词一极，在它所限定的逻辑名词没有确认之前，理论上是无法断定褒贬的：譬如高收入高品位是优点，但高血压高血脂就不好。不过语言的逻辑是一回事儿，语言的心理是另一回事儿，从语言心理来看，如果逻辑名词阙如，这些词默认是褒义词。逻辑上说不通，因为落脚点都不知道，怎么知道褒贬呢？可几乎全人类都有这种迷信高大上远粗长深广多硬。。。的趋向，这也反映在命名上，无论是给自己的产品、算法，还是给自己的孩子起名，大家都喜欢用形容词的这一极，而不喜欢用另一极短小软细少矮窄近。HowNet 把两极以及中间的级的这些形容词都命名为 X-Value, 我们还是把两极区别了一下，ValueUp and ValueDown。

ValueUp 的默认在 sentiment 系统中是有用的，它天生讨喜。这些都是客观形容词，理论上无褒贬，实际上有默认。主观形容词不同，它无需落脚到逻辑名词，就已经宣示了褒贬：譬如，好/坏优/劣良/歹善/恶正/邪。哪怕它最终落脚到一个坏的名词身上，这种宣示还是有效的：如，良性肿瘤。肿瘤是坏东西，但检查出结果是“良性肿瘤”的时候，那就是喜讯。当然这里面有些微妙任何矛盾体的组合都可能呈现这类微妙的问题 sentiment 这一行就更明显。微妙之处在于，局部来看语言结构，当褒义的主观形容词“良性”开始修饰贬义的名词“肿瘤”的时候，其作用是反转，贬义变褒义了。但是，这种反转在更大的上下文中，仍然是摇摆的。尽管良性，毕竟是肿瘤，毕竟是疾病。所以良性肿瘤仍然可以略带贬义。所以我说，自然语言中，最难缠的就是sentiment了，人类用主观语言（subjective language）表达 sentiment，比起用客观语言（objective language）表达事实，要微妙、歧义、模糊、摇摆得多。

NLP 做 sentiment 是吃硬果子。这个苦果吃下去消化了，那些个基于事实抽取的所谓知识图谱，就是小菜了。扫了 sentiment，就如登了泰山，NLP 可以一览众山小了。

【相关】

【立委科普：舆情挖掘的背后】