||
惊闻俞先生去世的消息,是不敢相信的。俞先生为人谦和,今年5月还在线上参加了我们主办的词汇语义学国际研讨会。在大会上作报告,与观众互动,我还帮他远程调试了电脑,怎么一下子说去就去了!
(北京大学 俞士汶教授)
俞先生的自传文章,也是在5月份就拜读了,圈内学者无不敬仰先生的学养与贡献。然而,先生在文章里把自己的研究说成“非主流”,把诸多的研究成果淡然处之。
作为受惠于先生的晚辈,心情激愤,如何才能将先生的卓越贡献述之一二呢。在中文信息处理领域,公认的几个里程碑分别是字处理、词处理、句处理和语义分析。在这四大阶段之中,先生都成就斐然。
一、中文激光照排技术的软件系统。在这个领域,王选教授最为大众熟知。俞先生在照排的软件技术方面也倾注了大量心血,为这一技术的落地做出了贡献。
俞士汶(执笔), 用于中文书报编辑排版的大型软件系统, 中小型计算机, 1981年第3期,
二、面向信息处理的汉语的语法体系。
虽然俞先生很少这样表述,但在80~90年代,汉语如何进入计算机,是一个争议颇大的理论问题。因为当时汉语是否有“词”这个概念,语言学界还在争论。词和语素、短语之间的界限并不清晰,而由词到句子的语法问题,争议就更大更多了。语法理论众说纷纭,用哪个理论作为基础呢?朱德熙先生的语法理论非常重要,至今也是语法学研究生的必读书。但理论到计算应用的鸿沟很大,具体实施起来,俞先生耗费了大量心血,制定出北大中文分词与词性标注等一系列的规范。在《人民日报》语料上具体实施,形成了数千万字的标注语料库。既解决了计算资源问题,又在很大程度上反哺了语言学和语料库语言学的研究。
1988年,俞先生就在《中国计算机用户》上连载了四篇论文,奠定了其后30多年的研究框架。
俞士汶,《多种形式的电子词典》,《中国计算机用户》,1988年15期
俞士汶,《自然语言语义分析技术》,《中国计算机用户》,1988年第5期
俞士汶,《自然语言语法分析技术》,《中国计算机用户》,1988年第5期
俞士汶,《自然语言处理的研究对象》,《中国计算机用户》,1988年第5期
基于朱德熙先生的语法体系,俞先生耗费数十年建造出近十万词条的语法功能词典。对汉语的语法研究可谓是地毯式的排查,在实践上极大丰富和验证了朱先生的理论。可以说,俞先生真正建立了一套面向计算机的语法体系,让汉语能够被计算机处理。
在语义分析这个难度极高的领域,俞先生也早有规划,以计算语言学研究所为依托,建立了大规模的词义知识库、隐喻知识库、诗词数据库等等。俞先生特别喜爱从文学的角度探讨修辞手法的计算问题。
三、俞先生为中文计算建立了大规模语言数据资源。众所周知,中文信息处理,除了计算机硬件外,还依赖于语言理论。数据资源和数学模型没有理论,无以建资源;没有资源,无以谈计算。数以万计的语法信息词典、概念语义词典,数千万字的分词词性语料库、语义标注语料库等,为中文信息处理提供了丰富的资源,为学界之后进行的工作奠定了坚实的基础。
2003年,SIGHAN国际中文分词竞赛,是中文词处理方面里程碑式的一次评测,大大推动了中文分词的研究水平。北京大学的《人民日报》分词标注语料库就是其中一个非常重要的语料,这个语料库也成为学界在教学和科研中使用频率极高的语料库。
四、为学界营造良好的学术平台
俞先生身在北大,关心的是整个国家的中文信息处理事业。2001年,为了提高国内外的学术交流,俞先生和港台的郑锦全教授、黄居仁教授共同倡办了“词汇语义学国际研讨会”,每年轮流在大陆和港澳台、新加坡举办,经过20年的发展,已经成为国内公认的重要会议。这个会议的特色在于,做自然语言处理、语料库、语言理论研究的学者参加比例大致相当,能够很好地推进传统学科和计算语言学的深度融合。
俞先生对后学关怀备至,无论有无师承关系都倾囊相授。每次遇到俞先生,他都会给我们留一些时间请教,启发良多。对于不严谨的治学态度和研究偏差,先生也会善意地教诲。对于我们从事的中文抽象语义表示研究,俞先生参加了项目组。原以为俞先生能给我们一些意见就好,没想到先生不止多次听取我们的组会汇报,还把近百页的标注规范一一批注,叮嘱我们一定把规范做好,把数据质量控制好。
俞先生一生兢兢业业,扎根学术,以严谨求真的治学态度,为自然语言处理等研究方向做出了巨大贡献。玉壶存冰心,朱笔写师魂。深切缅怀俞先生,愿俞先生一路走好!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 21:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社