|||
斯坦福parser那套基本算是公开的资源,无论是斯坦福内部的创业者,还是外部尝试用它的,好像工业上动静不大,为什么?除了nlp(自然语言处理)产品化本身的困难外, 一定还有其他的阻碍。
洪: @wei code都是phd学生写的,很多带实验性,拼在一起,可能比较乱
对。这是其一。另一点就是,NLP 还没成熟到可以标准化的程度,offshelf 的一般都不好使。
斯坦福之前、之外,还有英国的一套 GATE,学界影响蛮大,那更是叠床架屋,不堪使用,尽管做了很多年的功夫在内。拿它做prototype,做概念上的可行性研究可以,但做不了产品。
别说 parser 和深度处理了,即便是浅层的 NLP 模块,凡是 offshelf 的,基本都不好使,我是有切肤之痛的。
就说 POS,这个学界被认为是 solved problem,以 Brill 为主要代表。后来出了很多声称高于 Birll 的,但是没有实质性差异。Anyway,publc domain 里面这类 POS 的 code 很多。任务似乎也单纯,community 也有 standards,那么拿来用好了。我就是抱着这个想法,把 Brill 拿来用了,图一时省事。结果是擦不完的屁股。
还有一个教训,就是 morphology,Basis 在 Inxight 后,提供这种浅层的词分析。为了尽快做出多语系统,不想花时间 re-invent wheels,对于词尾变化丰富的欧洲语言, 我们就用了 Basis 的 morphology,结果是, 不仅 costs 很大而且是持续性的,擦屁股和内部协调也耗费了很多的资源。这可算是 industry quality code,但实际上,很难缠。Component tech 公司为了自己的生存,有意限制 config 的可能,使得我们想从痛点解决问题很难,常常要 patching。从长计议,我的体会是,offshelf 能不用就不用,built-in house 才是nlp正道。在当下,不仅是正道,也是王道。NLP 全面开花结果的未来也许不同。
我常跟同事说,我们做的最重要的一个决定就是,自己做 NLP 平台和 compiler。当年曾经认真考虑过把 Inxight 的 LinguistX license 过来,后来咬咬牙,自己内部开发平台,多耗费了三个月时间,可是后去的好处比license可说是逆天了。
多语言的浅层支持,Basis 也曾想让我用它的中文和日语,主要是切词,也做一些 POS和NE,我试了,发现那叫一个别扭,改一个错那个难,设计上也有问题。于是决定不用,自己从头做,可以利用public domain的资源,为我所用,但要按照自己设计的流程来架构和协调。现在看来,太英明了。中文系统的游刃有余全在自给自足的体系架构。
毛委员是不是说过,在行业不成熟的格局下,自力更生,自给自足,才是革命路线。
信然。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 22:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社