《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《扫了 sentiment,NLP 一览众山小:从“良性肿瘤”说起》

已有 3295 次阅读 2016-7-1 16:01 |个人分类:立委科普|系统分类:科研笔记| 情感分析, sentiment, 舆情挖掘, 主观语言

高,广,宽,深,大,粗,长 ...... 这些形容词很有意思,本来它们应该是中性的,因为作为逻辑形容词一极,在它所限定的逻辑名词没有确认之前,理论上是无法断定褒贬的:譬如 高收入 高品位 是优点,但高血压 高血脂 就不好。不过语言的逻辑是一回事儿,语言的心理是另一回事儿,从语言心理来看,如果逻辑名词阙如,这些词默认是褒义词。逻辑上说不通,因为落脚点都不知道,怎么知道褒贬呢?可几乎全人类都有这种迷信 高 大 上 远 粗 长 深 广 多 硬 。。。的趋向,这也反映在命名上,无论是给自己的产品、算法,还是给自己的孩子起名,大家都喜欢用形容词的这一极,而不喜欢用另一极 短 小 软 细 少 矮 窄 近 。HowNet 把两极以及中间的级的这些形容词 都命名为 X-Value, 我们还是把两极区别了一下,ValueUp and ValueDown。

ValueUp 的默认在 sentiment 系统中是有用的,它天生讨喜。这些都是客观形容词,理论上无褒贬,实际上有默认。主观形容词不同,它无需落脚到逻辑名词,就已经宣示了褒贬: 譬如,好/坏 优/劣 良/歹 善/恶 正/邪。哪怕它最终落脚到一个坏的名词身上,这种宣示还是有效的: 如,良性肿瘤。 肿瘤是坏东西,但检查出结果是“良性肿瘤”的时候,那就是喜讯。当然 这里面有些微妙 任何矛盾体的组合 都可能呈现这类微妙的问题 sentiment 这一行就更明显。微妙之处在于,局部来看语言结构,当褒义的主观形容词“良性”开始修饰贬义的名词“肿瘤”的时候,其作用是反转,贬义变褒义了。但是,这种反转在更大的上下文中,仍然是摇摆的。尽管良性,毕竟是肿瘤,毕竟是疾病。所以良性肿瘤仍然可以略带贬义。所以我说,自然语言中,最难缠的就是sentiment了,人类用主观语言(subjective language)表达 sentiment,比起用客观语言(objective language)表达事实,要微妙、歧义、模糊、摇摆得多。

NLP 做 sentiment 是吃硬果子。这个苦果吃下去消化了,那些个基于事实抽取的所谓知识图谱,就是小菜了。扫了 sentiment,就如登了泰山,NLP 可以一览众山小了。


【相关】

【立委科普:舆情挖掘的背后】

【置顶:立委NLP博文一览(定期更新版)】

《朝华午拾》总目录





https://blog.sciencenet.cn/blog-362400-988003.html

上一篇:【一日一parsing: 屈居世界第零】
下一篇:【关于我与NLP】
收藏 IP: 192.168.0.*| 热度|

1 陈辉

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 00:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部