《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【新智元笔记:汉语分离词的自动分析】

已有 3194 次阅读 2016-2-3 23:29 |个人分类:立委科普|系统分类:科普集锦|关键词:汉语,parsing,句法分析,分离词,合成词| 汉语, parsing, 句法分析, 合成词, 分离词

洪爷有诗道:伟哥强弩上大弓,先吃豆腐显轻松。 NLP parser天天弄,小菜十碟拌饭红。


我: 另一个 topic,汉语VN式合成动词是可分离的,以前说过,需要词典与句法的接口才好。这是汉语中非常普遍的语言现象,凸显了对传统的词典模块与句法模块完全分开的架构的挑战。

昨天的“吃豆腐”与“洗澡”同是此例。


“吃...豆腐”在句法中被 identify 以后,实际上还是有两个义项,这是由词典规定的,可以 keep ambiguity untouched:“吃豆腐”的成语义项(口语常用:轻度性骚扰)以及其字面义项“吃(食品)”。

白: 跨越模态词,伟哥再试试:小提琴我十年前就会拉拉。这种亏咱们可不能再吃了。
英语我十年前就会说了。

我: 这个现在不对,所以我把它叫做 tree250.png:


但是我可以做点工作弄对它,不难,因为没那么远,就是细活还没到位。第二句“亏”当动词了,没有有效利用“种”的量词条件,待会儿可以debug一下。

这两句似乎对了:



白: 拉拉,笔误。改过来再试试
我: 今天晚上有活了,加强 long distance,“拉小提琴”,没在合成词典里面,我得加上。

分离词的框架有了,测试还不够,还有活要做。“洗澡”在词典,“洗黑钱”不在,其实“洗钱”就好,包括了“洗黑钱”,“洗黑心钱”:


白: 他的棋十多年来一直没长进下得还是那么臭
我: 这个不用试,肯定不行。武功还没长进到那一步。

Wait,其实也不难,那个坑很明显。细磨一下应该可以的:


还好,不算太远,坑也明显。(当然这里说的远近是从parse tree来看,对于关键词的ngram序列,这个距离就是遥不可及了。)


【相关】

【立委科普:歧义parsing的休眠唤醒机制再探】 

《新智元笔记:找茬拷问立氏parser》 

《泥沙龙笔记:parsing 的休眠反悔机制》 

【新智元:中文 parsing 在希望的田野上】 

【置顶:立委科学网博客NLP博文一览(定期更新版)】  





http://blog.sciencenet.cn/blog-362400-954328.html

上一篇:《新智元:通用的机器人都是闹着玩的,有用的都是 domain 的》
下一篇:有朋友的孩子要学天文、宇宙,镜某也是很矛盾

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-17 20:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部