随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

沉痛悼念俞士汶先生

已有 2718 次阅读 2021-11-6 00:12 |个人分类:Computational Linguistics|系统分类:人物纪事


惊闻俞先生去世的消息,是不敢相信的。俞先生为人谦和,今年5月还在线上参加了我们主办的词汇语义学国际研讨会。在大会上作报告,与观众互动,我还帮他远程调试了电脑,怎么一下子说去就去了!

image.png

(北京大学 俞士汶教授)

俞先生的自传文章,也是在5月份就拜读了,圈内学者无不敬仰先生的学养与贡献。然而,先生在文章里把自己的研究说成“非主流”,把诸多的研究成果淡然处之。

作为受惠于先生的晚辈,心情激愤,如何才能将先生的卓越贡献述之一二呢。在中文信息处理领域,公认的几个里程碑分别是字处理、词处理、句处理和语义分析。在这四大阶段之中,先生都成就斐然。

一、中文激光照排技术的软件系统。在这个领域,王选教授最为大众熟知。俞先生在照排的软件技术方面也倾注了大量心血,为这一技术的落地做出了贡献。

俞士汶(执笔), 用于中文书报编辑排版的大型软件系统, 中小型计算机, 1981年第3期,

image.png

image.png

二、面向信息处理的汉语的语法体系。

虽然俞先生很少这样表述,但在80~90年代,汉语如何进入计算机,是一个争议颇大的理论问题。因为当时汉语是否有“词”这个概念,语言学界还在争论。词和语素、短语之间的界限并不清晰,而由词到句子的语法问题,争议就更大更多了。语法理论众说纷纭,用哪个理论作为基础呢?朱德熙先生的语法理论非常重要,至今也是语法学研究生的必读书。但理论到计算应用的鸿沟很大,具体实施起来,俞先生耗费了大量心血,制定出北大中文分词与词性标注等一系列的规范。在《人民日报》语料上具体实施,形成了数千万字的标注语料库。既解决了计算资源问题,又在很大程度上反哺了语言学和语料库语言学的研究。

1988年,俞先生就在《中国计算机用户》上连载了四篇论文,奠定了其后30多年的研究框架。

俞士汶,《多种形式的电子词典》,《中国计算机用户》,1988年15期

俞士汶,《自然语言语义分析技术》,《中国计算机用户》,1988年第5期

俞士汶,《自然语言语法分析技术》,《中国计算机用户》,1988年第5期

俞士汶,《自然语言处理的研究对象》,《中国计算机用户》,1988年第5期

 

基于朱德熙先生的语法体系,俞先生耗费数十年建造出近十万词条的语法功能词典。对汉语的语法研究可谓是地毯式的排查,在实践上极大丰富和验证了朱先生的理论。可以说,俞先生真正建立了一套面向计算机的语法体系,让汉语能够被计算机处理。

image.png

在语义分析这个难度极高的领域,俞先生也早有规划,以计算语言学研究所为依托,建立了大规模的词义知识库、隐喻知识库、诗词数据库等等。俞先生特别喜爱从文学的角度探讨修辞手法的计算问题。

三、俞先生为中文计算建立了大规模语言数据资源。众所周知,中文信息处理,除了计算机硬件外,还依赖于语言理论。数据资源和数学模型没有理论,无以建资源;没有资源,无以谈计算。数以万计的语法信息词典、概念语义词典,数千万字的分词词性语料库、语义标注语料库等,为中文信息处理提供了丰富的资源,为学界之后进行的工作奠定了坚实的基础。

2003年,SIGHAN国际中文分词竞赛,是中文词处理方面里程碑式的一次评测,大大推动了中文分词的研究水平。北京大学的《人民日报》分词标注语料库就是其中一个非常重要的语料,这个语料库也成为学界在教学和科研中使用频率极高的语料库。

四、为学界营造良好的学术平台

俞先生身在北大,关心的是整个国家的中文信息处理事业。2001年,为了提高国内外的学术交流,俞先生和港台的郑锦全教授、黄居仁教授共同倡办了“词汇语义学国际研讨会”,每年轮流在大陆和港澳台、新加坡举办,经过20年的发展,已经成为国内公认的重要会议。这个会议的特色在于,做自然语言处理、语料库、语言理论研究的学者参加比例大致相当,能够很好地推进传统学科和计算语言学的深度融合。

俞先生对后学关怀备至,无论有无师承关系都倾囊相授。每次遇到俞先生,他都会给我们留一些时间请教,启发良多。对于不严谨的治学态度和研究偏差,先生也会善意地教诲。对于我们从事的中文抽象语义表示研究,俞先生参加了项目组。原以为俞先生能给我们一些意见就好,没想到先生不止多次听取我们的组会汇报,还把近百页的标注规范一一批注,叮嘱我们一定把规范做好,把数据质量控制好。

俞先生一生兢兢业业,扎根学术,以严谨求真的治学态度,为自然语言处理等研究方向做出了巨大贡献。玉壶存冰心,朱笔写师魂。深切缅怀俞先生,愿俞先生一路走好!




https://blog.sciencenet.cn/blog-39714-1311132.html

上一篇:大数据时代的分析工具——揭示社会活动规律的网络科学
下一篇:一部优秀的NLP教材——《机器翻译》读后
收藏 IP: 117.88.193.*| 热度|

3 张晓良 蒋大和 张利华

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-11-27 17:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部