《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【立委随笔:NLP 的童子功】 精选

已有 7986 次阅读 2012-11-24 08:51 |个人分类:立委科普|系统分类:教学心得| NLP, 自然语言处理, 机器翻译


“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。”
引自:http://www.confidencenow.com/nlp-seduction.htm

作为一个领域,NLP(Natural Language Processing自然语言处理)在过去20年发生了翻天覆地的变化。这种变化伴随着电脑和互联网及其社会媒体的飞速发 展,使得 NLP 从高深的人工智能研究转变为近在咫尺的实用技术,以其各种应用,从机器翻译到智能秘书(如 Siri),正在造福亿万用户,而这仅仅是技术改变信息世界的开始。可以预见,今后20年将是NLP技术和应用的黄金时期,信息技术的创新和新一代人机互动离不开NLP。

另一方面,NLP 教育的缺失和断层也凸现出来。由于NLP领域一边倒倾斜于机器学习的方法论,新一代 NLP 从业人员普遍缺乏语言学的培训,缺乏对语言现象的多层次把握,他们追随国际潮流,花样翻新地尝试各种机器学习的新算法及其实现技巧,从而忽略了语言本身的复杂性及其问题领域的把握。算法有余而语言不足是新人普遍表现出来的NLP营养缺乏症。机器学习把一切智能过程看做黑匣子的方法论,在特定的任务和特定的条件下确实可以创造语言应用的奇迹,然而对于计算语言学教育,却带来了种种局限。培养出来的人重普适,少专才。NLP 博士可以不做语言,而去华尔街做金融系统。可是当面对语言问题的方方面面,他们的知识往往失之肤浅。典型的情形是,研究生教育阶段,他们下载过不同数据,尝试过不同项目,譬如训练出一个词性标注(POS:Part of Speech tagging)系统,实现过一个狭窄领域的褒贬分类的系统(譬如影评),做得好的甚至利用某现成的句法分析器(parser)去实现某种超越关键词分析或浅层分析的复杂语言系统,施行语义角色标注(semantic role labeling)或词义辨识(WSD:Word Sense Disambiguation)。可是,纵观这些培训项目的过程可以发现,这些项目强调的不是对语言和语言学的理解,受训者只是隔雾看花,语言的千变万化和多姿多彩被隐含在海量数据(labeled corpus)或者第三方的工具(如下载来的 parser,POS tagger,or morphology analyzer)之中。其结果是,他们缺乏解决复杂任务所需要的底蕴和对语言现象的控制能力。

这种营养缺失和语言学田野训练的断层在国内尤其严重。曾经与国内信息产业重量级人物谈过此事,他们千辛万苦追求人才到海外,我问:NLP 是朝阳领域,国内专于此项研究的教授和研究生越来越多,已经有相当规模的学业基础,在国际学界发表的论文数也直线上升,与我们当年入行时的隔离局面和手工业局面有天壤之别。怎么就要到海外来延揽人才,不能就地取材呢?回答是,领军人才真地是难寻,我们遴选面试了成百的国内优秀人才,还真地就是找不到合适的。大部分人才都缺乏某种东西。对NLP应用貌似有宏观把握的高级人才往往不 hands-on,遇到多变复杂的具体问题,缺乏具体的应对和实现措施。而对语言现象和语言学有深入了解和丰富经验的人,往往又跟不上时代,过于迂腐,难以在全局中对项目定位。总之是上去的人下不来,下面的人又上不去;文科的人太傻,理工的人太呆,此乃交叉学科之痛。

交叉学科之痛是普遍存在的。人无完人。文理两全不呆不傻的人比熊猫还珍贵。除了熊猫,文理全才据说只剩下方博士和镜子大师了,均属可遇不可求见首不见尾的人物。但NLP的知识和人才断层却不仅仅是交叉之痛,而是一个更为普遍的学科倾斜的后果。如果新一代的导师(我们的同辈或晚辈)由于学界潮流的影响(非统计方法的论文基本上无从发表),忽视了语言学,怎么能指望他们的学生可以接受全面的培训呢?取法乎上仅得其中,什么环境造就什么人才。

笔者认识一位美女文学家,电影明星出身。多数人的偏见都是,凡美女明星,难得文采。而文采斐然的女作家,则往往其貌不扬。她却是一个罕见的例外。原来她的明星之路实属偶然,而她的书香门第和特殊家教从小培养了她引为骄傲的“童子功”。这种文字的功力,加上她驰骋的文艺想象力,在她息影以后成就了她作家的道路。回到本文的主题,笔者以为,NLP 教育的缺失和断层很大原因也是一种语言学童子功的失传。

从这一点看,我们这一辈是幸运的。我们的导师都是语言应用的大师,我们一入行接触的就是当时国内顶尖的几位语言应用泰斗(刘先生、董先生等前辈),他们经历了几十年传统机器翻译的历练。回想起来,传统的机器翻译真是一个绝佳战场,在这里小鬼可以磨练成将军,童子功的传承即在此磨练之中。与现在流行的统计机器翻译不同,传统的机器翻译把语言掰碎了来分析(源语分析),然后做词汇意义
逻辑语义的转换,最后还要把语言碎片重新拼接成语言的表达(目标语生成),这等于孙悟空钻进语言的肚子里面大闹天宫,也好比大圣被扔进语言学的熔炉里冶炼成火眼金睛。这样的培训最见 NLP 童子功。现在的 NLP 学生,还有多少人能有这样的环境、机会和耐心呢?

【立委名言:技术改变世界,甚至总统】



【相关篇什】

【立委随笔:机器翻译万岁】

【置顶:立委科学网博客NLP博文一览(定期更新版)】




https://blog.sciencenet.cn/blog-362400-635692.html

上一篇:也来说“城里为何难买便宜大白菜?”
下一篇:大树是靠什么把水送到几十米高的叶子上的?
收藏 IP: 192.168.0.*| 热度|

9 胡俊峰 汪梦雅 曹聪 徐建良 许海云 翟自洋 贾伟 bridgeneer ddsers

该博文允许注册用户评论 请点击登录 评论 (9 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 17:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部