《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

中文处理的模块化纠结

已有 3400 次阅读 2014-6-25 08:47 |个人分类:立委科普|系统分类:科研笔记|关键词:模块,中文,处理,切词| 处理, 中文, 模块, 切词

模块化也不是万能的
作者: 吴礼
日期: 06/19/2014 05:48:40
模块化的确有很多优点,但很多时候达不到整体优化的效果。在通信行业,有个ISO七层模块化的模型,用了二三十年了。提出 来的时候是个大创造,因为它使得各个厂家可以制造系统的不同部分,而只要接口符合要求就能相容工作。但事实上,没有人制造只在一层工作的产品。所以基本上那七层就是分成两,三个模块。而近年来,cross layer optimization成了一个热门研究题目。

天下大势,分久必合,合久必分,源自性能与成本(开发和管理)两个要求的交替上升。


两年前开始上中文的时候,感觉有挑战性,因此蛮刺激,憋着一股劲儿。中文处理的问题,我硕士和博士项目都做过研究,当然那都是混学位的玩具系统,试水而已。后来一直做英文NLP工业研发,但对中文处理的思考10多年来不曾停止。两年前终于有机会名正言顺地着手做,当时的自我感觉是有九成把握。不敢说100%,因为想得很美的事情,不真去试总是不放心,而且此前很多人尝试过,无功而返。

经过大约半年的奋战,那10%的疑惑就消解,有了突破,后去就是工作量的事情了。终于敢拍着胸脯说,英文做到的自动分析和抽取挖掘,中文一样可以做到。感觉一下轻松多了。唯一可惜的是平台还不够大,不能更深地 put a ding in the universe.(可老帮菜朋友说得也有道理,为什么不能生活得更环保,尽可能不给世界留下痕迹呢?)

那 10% 的挑战就是吴礼提到的模块化不是万能钥匙的问题,这在中文处理比在英文处理中显得尤为突出。第一个鬼门关就是中文的切词(tokenization)、词性标识(POS) 和短语抱团(chunking)这三个传统模块的接口怎样处理的问题。因为无法切割清楚,很多人陷入泥坑。这三个基本环节处理不好,就甭谈中文深度分析(deep parsing)和抽取了。但这确是一大难点,尤其对一根筋的理呆。不是为文科贴金,理工出身的喜欢直线思维,往往容易中招。年轻生手就更难以跨越了。


挑战和突破是相对短暂的区间,前后都是拼的耐力。然而,微观上耐力重要,宏观上突破更重要。没有突破,耐力与一头牛无异。而耐力最终可以用钱去买、去实现,而突破常是可遇不可求,要的是眼光,也有运气。


大型软件工程中的模块化是铁律,怎样强调也不过分。但模块化不等同于可以忽视客观世界中的相互依赖的千丝万缕。这对矛盾看得越透,分寸拿捏越容易到位。模块化设计时抓大放小,模块接口和调适时不忘细节,才是辩证法的正道。

而如是设计研发以后经过大规模测试,现在终于可以说,我等绕过了暗礁险滩,在功能切割的模块化和你中有我相互依赖的矛盾怪圈中,达到了一种和谐。

共产主义也不过如此吧。可以骄傲一哈。


【相关】

《新智元笔记:NLP 系统的分层挑战》 2015-12-09

【置顶:立委科学网博客NLP博文一览(定期更新版)】



http://blog.sciencenet.cn/blog-362400-806349.html

上一篇:晶体年里说凝聚态
下一篇:对《杨韵芳清华大学挑战杯特等奖作品不存在抄袭》的评述

4 周健 翟自洋 陈辉 武夷山

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-3-22 12:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部