《新智元笔记:汉语parsing的合成词痛点》
精选
已有 6911 次阅读
2016-2-10 09:30
|个人分类:立委科普|系统分类:科普集锦|
汉语, parsing, 合成词, 生词, OOV
我: 半夜醒来,一看有好例子,白老师给的三个作业,精神头就来了。这些结果是在没有利用量词搭配的情况下的parsing,不久会加上搭配的。
我:最后这句笑话闹大了。
有意思的是,加了一个新词 “停落” 没做其他任何改变,就成这样了:
白: 这个很power
我: 量词搭配没利用,但 “颗”和“树”还是连上了,“候鸟”和“停落”的主谓也连上了。定语从句也对了,但逻辑关系却错了:“大树”不应该是“经常停落”的逻辑宾语。
finally: 那个图是程序自动生成的,还是用手现画的啊?
白: 显然自动的
我: 开玩笑,这是NLP群,要是手画那还了得。
我: Wait, 再一想 其实也不错: 候鸟停落大树。 “停落”的确是及物的,“大树”是表示地点的逻辑宾语。那就全对了?白老师。 这就是我说的 parser 开发,越到后来越多让创造者惊喜的地方。用句白老师的话说,“我窃喜”。
白: O的标签是句法的,映射到语义,有若干种逻辑角色,取决于动词的实例。比如“贴”、“盖”、“钉”,都有条件携带一个表示处所的坑,叫啥随便。
我: 那是,O 具体要映射到哪一个更细更合理的逻辑语义,决定于什么动词。只要 O 对了,这个映射在后一步极为简单。就是一个简单的映射词表或词驱动规则:停落:O(物体) --》地点。事实上,抽取(IE)的完成就是类似上面的映射。所以我说,parsing 靠谱了,IE 就是个玩儿。
白: 所以基本满分了
我: 暴露了一个问题:OOV(生词问题):“停落”不在词典的时候,表现不好。汉语构词法太灵活。本来某个合成词的规则应该把 停+落 合成的,可是这是一个痛点,火候不好掌握。
这一讲可以叫汉语parsing的“合成词痛点”。
这方面我们在系统也做了一些工作,但很不全,而且动力不足: OOV 是长尾,silent majority,花了功夫,可测试集里面见效不会大。如果统计把汉字词素的语义距离都弄出来了,这对统计不难。然后凡是落单的bigram汉字都合成为一个双音节合成词(汉语文法界有很多讨论现代汉语双音化构词趋势的文章)。这个法子可以对付一多半“合成词痛点”,估计。
白: 你看看“证券资金交收处理办法”能有几个收进合成词。
我: 还是OOV问题:“交收”不认识
白: 这个不懂业务是很难做对的。“交收”是一个业务术语,既包括交券也包括交钱,就是说“证券资金”是联合结构。类似这种,在我们的业务文件中不知道有多少,交给句法做没道理,不交给句法,句法在这里的接口又是什么?
我:加了合成词“交收”以后的parse如下:
记得中学时代入迷冰心的文字。她最善于“生造”合成词。虽然生造,汉字被她用得行云流水一般。不克服合成词痛点,是没法 parse 冰心的。就是语义距离计算为主,“交”与“收”应该在距离阈值之内。
白: 生造的接续感觉,用机器学习似乎可行。规则看样子搞不定。
我: 同意。
【相关】
《新智元笔记:跨层次结构歧义的识别表达痛点》
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-955372.html
上一篇:
《新智元笔记:跨层次结构歧义的识别表达痛点》下一篇:
《新智元笔记:与汉语离合词有关的结构关系》