《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

看望导师刘倬先生,中国机器翻译的开山鼻祖之一 精选

已有 8377 次阅读 2013-4-3 06:43 |个人分类:立委随笔|系统分类:生活其它| NLP, 中国, 机器翻译, 刘倬


1991 年出国前与刘倬导师和爱平大姐合影留念


来前就跟爱平大姐联系,说请安排一起去拜访我们的导师刘倬老先生。大姐说,刘老先生80高龄,刚做了手术,如果术后身体还好,我们就去医院探视。


于是,科学院讲演和午餐完,就去医院,看到刘老师精神蛮好,恢复不错,感到宽慰。我们闲谈了一些NLP的过去和现在,刘老师当年开创的一套模式匹配的分析方法,从本质上至今依然有效,可以在大数据时代发挥作用。今非昔比,如今的计算机软硬件鸟枪换炮,大数据时代的到来,使得NLP在亿万文档上施行。Size matters,奇迹在量变中发生,我们正在创造和见证这种奇迹。而这一切都离不开恩师当年的栽培和教诲。


不能忘记当年硕士毕业留语言研究所,与爱平大姐一起,在刘老师的带领下,研发机器翻译系统的经历。刘老师亲自设计实现一套NLP专用语言,从解释器到控制器,从专家词典(个性规则)到句型转换(共性规则)的系统架构和流程,这些凝结了几十年MT探索的设计思想和算法,全在刘老师的掌控之中。刘老师还有一个绝技,就是不借用任何工具,可以凭着自己苦思冥想找到系统问题的所在。常常是,系统有一个 bug,刘老师晚上就睡不着,程序就在脑子里绕,常常半夜捉住了bug,第二天迫不急待上机试验,问题往往得到解决。也有隐藏太深的 bug,头脑绕不出来,于是大姐和我就帮着刘老师“人工串图”,有时候要一步步串好几天才发现逻辑漏洞,那种高兴,跟打了一场胜仗似的。如今的软件工程师大概很难想象在没有任何debug工具的环境下,怎样开发系统,可当年刘老师带领我们就是这么磨出来的。


以前提过,中国NLP新一代思维开阔活跃,与世界接轨,后生可畏。可NLP领域统计一边倒的现状使得语言学派的传承几乎遭遇断层。从我的两位导师刘涌泉和刘倬老前辈在上个世纪50年代末开创了中国的机器翻译事业以来,董振东前辈是一面旗帜,他的【译星】是一个里程碑,第一次把实验室的原型系统转化成了工业产品。译星之后,刘老师和董老师、爱平大姐和我,与中关村高立公司合作,招收了一批清华新毕业生,共同打拼,在刘老师设计的以专家词典(expert lexicon)为基础的系统原型上,研发下一代机器翻译系统。这套系统是中国NLP历史上第二个有影响力的工业产品。



1991年与刘老师(下左2)、董老师(下右1)、爱平大姐(上右2)在中关村高立公司


在刘老师指导下的这些研发经历,成为我一生的宝贵财富。天不变,道不变;天变了,道亦不变。留洋了,镀金了,眼界开阔了,对不同方法的优劣比较了解了。但语言处理里面的一些核心思想并没有过时。我以二刘老师和董老师的嫡系传人而骄傲。


我跟刘老师说,如今大数据了,我们可以利用云计算,租用几百台虚拟机,对海量数据进行并行处理,对上亿的文档做深层语法分析,抽取舆情挖掘所需要的情报。这样的规模是当年不敢想象的。正因为有大数据天然的信息冗余及其 scale up 的处理能力,我们挖掘的情报质量,从用户体验上看,无论精度(precision)还是广度(recall)都得到了的大幅度提高。以前看上去无解的难题,譬如捕抓舆情动态,回答why和how这样的问题,如今都取得了实用性的突破。


谈话间提到,刘老师的学生还在做NLP的,除了学界象大姐这样的,流出去的大概我是唯一幸存的了。刘老师说,应该还有李卫东,他在IBM做NLP的,至少上次刘老师和熊老师访问美国的时候,刘老师这位得意门生还在做NLP,可掐指算来刘老师那次北美之行已经是20+年前了。我不敢肯定这位特别聪明的学长是不是还在这一行。


刘老师术后不让进食,身体还是很虚弱,我们怕影响刘老师的康复,一个小时后就告别了。遗憾的是,匆匆来去,没能与刘老师合个影,主要是觉得在医院病床前不大方便,没好意思提。上次董老师来拜访刘老师的时候,刘老师身体很好,两位NLP老前辈畅谈了好几个小时。


祝刘老师很快康复,健康长寿。


2001 年与刘老师在尼亚加拉大瀑布合影


2001 年与刘老师、师母及全家合影




博主回复(2011-12-10 19:14)

我当年读我导师的论文就很头大。可是他那论文多是干货,跟马鞍山采石干子似的,耐嚼。当年读了多少遍自己都忘记了。

老先生当年在业内就很受景仰,毕竟有硬通货。可是当年景仰他的人,一多半根本看不懂他在说什么。

这是一个很奇特的现象,一半是老先生不善于科学普及,另一半也许是老先生确实没有多少时间,也不屑于鸡毛蒜皮。

这些都是NLP的掌故了。





https://blog.sciencenet.cn/blog-362400-676381.html

上一篇:被扭曲了的大学录取方式
下一篇:如果镜某讲这门课
收藏 IP: 99.90.69.*| 热度|

15 武夷山 李伟钢 吕喆 曹聪 陈安 蔣勁松 刘全慧 唐凌峰 肖重发 张婷婷 庄世宇 翟自洋 朱新亮 zhangcz07 bridgeneer

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-21 21:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部