|||
洪爷有诗道:伟哥强弩上大弓,先吃豆腐显轻松。 NLP parser天天弄,小菜十碟拌饭红。
我: 另一个 topic,汉语VN式合成动词是可分离的,以前说过,需要词典与句法的接口才好。这是汉语中非常普遍的语言现象,凸显了对传统的词典模块与句法模块完全分开的架构的挑战。
昨天的“吃豆腐”与“洗澡”同是此例。
“吃...豆腐”在句法中被 identify 以后,实际上还是有两个义项,这是由词典规定的,可以 keep ambiguity untouched:“吃豆腐”的成语义项(口语常用:轻度性骚扰)以及其字面义项“吃(食品)”。
我: 这个现在不对,所以我把它叫做 tree250.png:
这两句似乎对了:
分离词的框架有了,测试还不够,还有活要做。“洗澡”在词典,“洗黑钱”不在,其实“洗钱”就好,包括了“洗黑钱”,“洗黑心钱”:
Wait,其实也不难,那个坑很明显。细磨一下应该可以的:
还好,不算太远,坑也明显。(当然这里说的远近是从parse tree来看,对于关键词的ngram序列,这个距离就是遥不可及了。)
【相关】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 17:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社