|||
高,广,宽,深,大,粗,长 ...... 这些形容词很有意思,本来它们应该是中性的,因为作为逻辑形容词一极,在它所限定的逻辑名词没有确认之前,理论上是无法断定褒贬的:譬如 高收入 高品位 是优点,但高血压 高血脂 就不好。不过语言的逻辑是一回事儿,语言的心理是另一回事儿,从语言心理来看,如果逻辑名词阙如,这些词默认是褒义词。逻辑上说不通,因为落脚点都不知道,怎么知道褒贬呢?可几乎全人类都有这种迷信 高 大 上 远 粗 长 深 广 多 硬 。。。的趋向,这也反映在命名上,无论是给自己的产品、算法,还是给自己的孩子起名,大家都喜欢用形容词的这一极,而不喜欢用另一极 短 小 软 细 少 矮 窄 近 。HowNet 把两极以及中间的级的这些形容词 都命名为 X-Value, 我们还是把两极区别了一下,ValueUp and ValueDown。
ValueUp 的默认在 sentiment 系统中是有用的,它天生讨喜。这些都是客观形容词,理论上无褒贬,实际上有默认。主观形容词不同,它无需落脚到逻辑名词,就已经宣示了褒贬: 譬如,好/坏 优/劣 良/歹 善/恶 正/邪。哪怕它最终落脚到一个坏的名词身上,这种宣示还是有效的: 如,良性肿瘤。 肿瘤是坏东西,但检查出结果是“良性肿瘤”的时候,那就是喜讯。当然 这里面有些微妙 任何矛盾体的组合 都可能呈现这类微妙的问题 sentiment 这一行就更明显。微妙之处在于,局部来看语言结构,当褒义的主观形容词“良性”开始修饰贬义的名词“肿瘤”的时候,其作用是反转,贬义变褒义了。但是,这种反转在更大的上下文中,仍然是摇摆的。尽管良性,毕竟是肿瘤,毕竟是疾病。所以良性肿瘤仍然可以略带贬义。所以我说,自然语言中,最难缠的就是sentiment了,人类用主观语言(subjective language)表达 sentiment,比起用客观语言(objective language)表达事实,要微妙、歧义、模糊、摇摆得多。
NLP 做 sentiment 是吃硬果子。这个苦果吃下去消化了,那些个基于事实抽取的所谓知识图谱,就是小菜了。扫了 sentiment,就如登了泰山,NLP 可以一览众山小了。
【相关】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 09:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社