||
PS:今年又请冯先生作序,忽然想起多年前的第一篇序,冯先生写的很精彩,故贴来存之。
李斌博士的《现代汉语动宾搭配的语义分析和计算》一书就要出版了。他要我写一个序言,我一直关注他对于语义的研究,就欣然应允了。
本书对《现代汉语辞海》中的1462个动词的38119条动宾搭配的选择限制(selectional restriction)进行了较为系统的考察、分析和计算,指出选择限制理论中的语义限制在动词覆盖面和语义约束方面存在局限性,他以认知和计算的双重视角,对影响动宾搭配的语义层面的因素进一步做了个案考察,形成了“语义类别,属性(值),动态性、主观性,认知事件框架,转喻和隐喻”六个层面的综合分析框架。其中,语义类和语义属性(语义特征)是传统语义研究中常用的两个分析因素,后四个层面是过去研究较少的。本书在这个大框架下展开分析和计算,探讨了六个层面的合理性和可计算性。首先指出了搭配限制中语义类、语义特征的作用范围,用搭配限制的主观因素和认知事件框架来分析宾语的多样性,还特别考察了主观因素中的褒贬指向问题,最后对常见的显性转喻进行了理解性计算,对搭配范围极大又是明喻标记词的“像”做了比喻的自动判定和比喻成分的自动识别。本书成功地解释了诸如“排车票”、“挤公交”、“解决住房”、“吃大碗”、“吃食堂”、“感谢红领巾”、“听贝多芬”等动宾短语中的语义制约关系,这样的解释思路非常新颖,同时又具有说服力。这是一本难得的现代汉语语义研究的著作。
现代汉语动宾短语的语义关系极为复杂,在研究这个问题的时候,似乎是从零数到无限大,越是往前研究,问题就越来越多,就越觉得前面充满了险阻,困难重重,有看不到尽头的感觉。所以,有的专家指出:“动词和宾语关系是说不完”,这是有深入研究体会的经验之谈。李斌博士在这本书中的研究,敢于碰这种“从零数到无限大”“说不完”的困难问题,而且取得了很好的成果,这是值得高兴的。
自然语言处理的范围涉及到众多的部门,我认为,这些部门可以归纳为如下四个大的方向:
1数据处理方向:这个方向把自然语言看成一种“资源”(resources),对于“语言资源”(language resources)进行数据处理。这一方向早期的研究有术语数据库的建设、各种机器可读的电子词典、“词网”和“知网”的开发。近年来随着大规模语料库的出现,语料库的建设和加工显得越来越重要,成为获取语言学知识的主要手段,通过机器词典和语料库的数据,可以帮助自然语言处理研究者诱导或分析出大量有用的语言知识,从而弥补研究者主观“内省”的不足。
2语言工程方向:这个方向把自然语言处理作为面向实践的、工程化的语言软件开发来研究。这一方向的研究一般称为“人类语言技术(Human Language Technique, 简称HLT)”,或者称为“语言工程”(Language Engineering)。如语音自动识别、语音自动合成、机器翻译、人机对话、信息检索、信息抽取、文本分类、文本数据挖掘、自动文摘、文字识别,等等。这个方向的研究可以取得很好的经济效益和社会效益,成为自然语言处理的研究热点。
3语言本体方向:这个方向把自然语言处理作为语言学的一个分支来研究,主要使用计算机来研究语言的本体,探索语言本身的内在规律。这个研究方向的最重要的研究领域是语音、词汇、语法和语义形式化理论和自然语言处理的数学理论。
4智能认知方向:这个方向把自然语言处理作为在计算机上实现人类语言能力的学科来研究,探索自然语言理解的智能机制和认知机制。这一方向的研究与人工智能、心理语言学、认知科学有着密切的关系。
在我国的自然语言处理研究中,数据处理方向成绩卓著,语言工程方向战果累累,可是,语言本体方向和智能认知方向却显得非常薄弱,几乎是一片空白。李斌博士的著作就属于研究语言本体方向和智能认知方向的,他的研究与单纯的语言学定性分析和自然语言处理的工程应用不同的,他力求在清晰地描写语言现象的基础上,对于语言现象寻求具有说服力的认知和语义解释,而且这些描写和解释是建立在一定规模语料的考察之上的,其理论形式具有可计算性,并可以在具体的计算中进行验证、修正和应用。这是难能可贵的。
李斌博士在本书中指出了选择限制在动词覆盖面、语义约束和比喻等方面的局限性,我认为,除了李斌指出的这些局限性之外,还应当注意如下两方面的局限性:
■当在否定句子中的时候,否定关系明显地违反了选择限制,但是,句子的语义却是合法的。
例如,People realized you can’t eat gold for lunch if you’re hungry. (人们认识到,当你饥饿的时候,你不会把金子当作午餐来吃的。)
句子中的eat gold显然违反了eat的选择限制,因为gold不具有可食性。但是,由于有否定词can’t,这个句子的语义却是完全合法的。
■当句子描述的事件是不寻常的事件时,尽管违反了选择限制,句子的语义仍然是完全合法的。
例如,In his two championship trials, Mr. Kulkirni ate glass on an empty stomach, accompanied only by water and tea.(在他的两次冠军比赛中,库尔基尔尼先生空腹吞食玻璃,吞食的时候只是喝点水和茶。)
句子中glass(玻璃)是不具有可食性的,违反了eat的选择限制,可是,这个句子的语义仍然是合法的,因为库尔基尔尼先生具有“吞食玻璃”这种不寻常的本事。
这些问题,还有进一步研究的必要。
语言学中“搭配”(collocation)的研究,从1957年英国伦敦学派的弗斯(Firth)开始,已经有50多年了,在这50多年中,很多有才气的语言学家,如韩礼德(Halliday)、辛克莱(Sinclair)、乔姆斯基(Chomsky)、卡茨(Katz)、弗托(Fodor)都对搭配的研究做出了自己的贡献,有的语言学家还编写了各种搭配词典;近年来,神经语言学和认知语言学也开始探索搭配的问题。自然语言处理中,对于搭配获取、搭配识别也做了很多有意义的研究工作。这些事实说明,搭配问题确实是一个非常引人瞩目而又十分困难的语言学问题。
面对这样的困难问题,我们自然语言处理研究者决不能望而却步,而应当以大无畏的追求真理的精神,知难而进。自然语言处理的研究者就像侦察兵,对于侦察兵来说,没有路的才是最好的路,如果道路都铺好了,还要我们这些侦察兵干什么?我们需要有披荆斩棘的勇气,以克服困难为荣,以忍受艰苦为乐,在没有路的荆棘丛中开出一条金光大道来。在自然语言处理的艰苦探索中,尽管我们这些侦察兵尽管常常有“山穷水尽疑无路”的困惑,但是,在披荆斩棘之后,也会感受到“柳暗花明又一村”的愉快。一旦这条充满荆棘的艰险道路被铺开了,前面就是一马平川的金光大道。
我1957年在北京大学读书的时候,就开始对自然语言的计算产生兴趣,1959年毅然从理科转到语言学,专门从事自然语言计算机处理的研究,而今已经50多年了。50多年来,我自己从一个不谙世事的幼稚青年变成了一个白发苍苍的垂垂老人了,然而,我毕生所钟爱的自然语言处理却丝毫没有变老,它仍然显得非常年轻,仍然是一门新兴的学科,充满了新鲜的活力。科学之树常青,而我们个人的生命与科学这个常青的大树相比,的确是太渺小了,犹如沧海之一粟。科学事业需要几代人持续不断的努力,才有可能取得明显的成绩。因此,我把自己对于自然语言处理的热爱之情寄托于年轻人,我相信,有更多的像李斌博士这样的年轻人会把自然语言处理研究的接力棒一代一代地传下去,从而使我们这个学科更加成熟。
希望李斌博士再接再厉,在自然语言处理的艰苦探索中创造出更多、更新的成绩。
冯志伟
2011年4月13日 于德国海德堡
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 00:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社