《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【科研笔记:NLP的词海战术】

已有 6212 次阅读 2012-10-30 06:55 |个人分类:立委科普|系统分类:科研笔记| NLP, Chinese, System, 中文, 词典

女儿在背SAT词典,为美国高考挠心,说这词典太难了,都是偏僻少见的词,平时见不到,考试偏要考。死记硬背效果不好,指望海量阅读来提高词汇量,是远水不解近渴。气得直摔词典。我问:还有多少词汇需要死记?答曰不认识的和半认识的约一千,要在几周内搞定。
深表同情。区区一千词就把孩子折腾得寝食难安。我说见识一下我们NLP机器词典的规模吧。

开发系统,中文词典知多少?

屈指算来,已经分类编纂了20万词条的中文词典供自动parsing用(其中上周把 五万多条 汉语成语和熟语加进系统去了)。


另外还使用了 18 万没有分类的词典帮助中文切词,一部粤语词典以及一个网络用语词表,使得词典资源总量达到 39万三千之多。开发不到一年的系统,光词典就用了这么多,这是以前难以想象的,无论速度还是规模。

作为参照,【现代汉语词典】(第六版)收录 69k 词条;【辞海】(1999版)共收录 105k(105400)词条。而我们的系统带有语法语义参数的语言学词条已达 203k,这还不包括粤语词典以及经过统计得来的用于单词切分的 184k 高频词语。
可以说,除了专业词典外,现代汉语通用词汇基本一网打尽了。

回顾一哈,自我打气,也示小小庆贺。
Summary of all lexicons used in our Chinese system:
(1) segmentation-only dic: 184k;
(2) feature lexicon: 59k;
(3) location names: 3k;
(4) person names: 64k;
(5) product/brand names:21K;
(6) company names: 1.7k;
(7) other names: 2k
(8) idioms: 52k;

 
Total:

387k participated in segmentation, and
203k with lexical features to support parsing and sentiments

In fact, we also have two more lexicons for handling social media jargons and Cantonese-only vocabulary.  These lexicons are used in the pre-processing stage, not in segmentation, nor in parsing:

(9) Cantonese-only lexicon: 4.9k
(10) Social media jargon: 1k


实用NLP系统要使用海量词典早已是业界的共识了。词典工作做得越足,系统质量就越高。License、手工加半自动编纂机器词典 因此成为语言处理的一个繁琐而重要的任务。电脑擅长的是记忆,多少词典都吃不饱它。(阻挡我们无限扩大系统词典的因素,不是电脑的负担,主要是编纂调试的工作量,以及系统词典资源维护的 overhead)


~~~~~~~~~~~~~~~~~

白:

“诺奖得主席勒”

李:

白老师这个 case 路子其实清楚,“主席” 插不进脚:

万一出问题,“诺奖得主” 可以进词典。“习勒” 是常用外名,自然在词典。实际上 “得主” 这样的词比较危险 因为两个字都是常用字 致使边界容易陷入纠缠。因此 与 “得主” 相关的合成词 哪怕是半产生性的,为保险起见 ,也是尽量词典化为宜。跟列宁攻打冬宫类似, nlp 词海战术 怎么强调都不为过。

白:

列宁攻打冬宫怎了?

李:

赢了。虽然赢得惨烈。

白:

自损八百?

李:

不惜代价 人命如蚁。

比喻都是跛脚的,其实词海战术最大的好处就是代价小,效果好。与人海战术的可类比的地方,实际上也就是一个“海”字。代价小也表现在副作用小。缺点呢,不过是有些 redundancy,搜集、管理和维护有点负担。比起所得,这些 costs 不算啥。


【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-627487.html

上一篇:读《太平洋战争前的美日关系》有感之感
下一篇:回答一个压力的问题
收藏 IP: 99.151.9.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 08:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部