《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

自给自足是NLP王道

已有 3687 次阅读 2015-6-30 03:41 |个人分类:立委科普|系统分类:科研笔记|关键词:NLP,自然语言,开发,模块化,系统化| NLP, 开发, 自然语言, 系统化, 模块化

斯坦福parser那套基本算是公开的资源,无论是斯坦福内部的创业者,还是外部尝试用它的,好像工业上动静不大,为什么?除了nlp(自然语言处理)产品化本身的困难外, 一定还有其他的阻碍。

洪: @wei code都是phd学生写的,很多带实验性,拼在一起,可能比较乱

对。这是其一。另一点就是,NLP 还没成熟到可以标准化的程度,offshelf 的一般都不好使。

斯坦福之前、之外,还有英国的一套 GATE,学界影响蛮大,那更是叠床架屋,不堪使用,尽管做了很多年的功夫在内。拿它做prototype,做概念上的可行性研究可以,但做不了产品。

别说 parser 和深度处理了,即便是浅层的 NLP 模块,凡是 offshelf 的,基本都不好使,我是有切肤之痛的。

就说 POS,这个学界被认为是 solved problem,以 Brill 为主要代表。后来出了很多声称高于 Birll 的,但是没有实质性差异。Anyway,publc domain 里面这类 POS 的 code 很多。任务似乎也单纯,community 也有 standards,那么拿来用好了。我就是抱着这个想法,把 Brill 拿来用了,图一时省事。结果是擦不完的屁股。

还有一个教训,就是 morphology,Basis 在 Inxight 后,提供这种浅层的词分析。为了尽快做出多语系统,不想花时间 re-invent wheels,对于词尾变化丰富的欧洲语言, 我们就用了 Basis 的 morphology,结果是, 不仅 costs 很大而且是持续性的,擦屁股和内部协调也耗费了很多的资源。这可算是 industry quality code,但实际上,很难缠。Component tech 公司为了自己的生存,有意限制 config 的可能,使得我们想从痛点解决问题很难,常常要 patching。从长计议,我的体会是,offshelf 能不用就不用,built-in house 才是nlp正道。在当下,不仅是正道,也是王道。NLP 全面开花结果的未来也许不同。

我常跟同事说,我们做的最重要的一个决定就是,自己做 NLP 平台和 compiler。当年曾经认真考虑过把 Inxight 的 LinguistX license 过来,后来咬咬牙,自己内部开发平台,多耗费了三个月时间,可是后去的好处比license可说是逆天了。

多语言的浅层支持,Basis 也曾想让我用它的中文和日语,主要是切词,也做一些 POS和NE,我试了,发现那叫一个别扭,改一个错那个难,设计上也有问题。于是决定不用,自己从头做,可以利用public domain的资源,为我所用,但要按照自己设计的流程来架构和协调。现在看来,太英明了。中文系统的游刃有余全在自给自足的体系架构。


毛委员是不是说过,在行业不成熟的格局下,自力更生,自给自足,才是革命路线。

信然。



【置顶:立委科学网博客NLP博文一览(定期更新版)】



http://blog.sciencenet.cn/blog-362400-901574.html

上一篇:权利?义务?说说“父亲们休产假”的事儿
下一篇:再谈应该立法禁止切词研究

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-20 22:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部