随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

《词语认知属性的知识库构建和应用》冯志伟先生2016年赐序

已有 1646 次阅读 2018-2-1 10:03 |个人分类:Computational Linguistics|系统分类:科研笔记

PS: 冯志伟先生赐予晚辈的第二篇序言,高屋建瓴,却因赠与拙著出版,读者甚少,故存之于此共赏。

语言中的词汇具有高度系统化的结构,正是这种结构决定了单词的意义和用法。这种结构包括单词和它的意义之间的关系以及个别单词本身的内部结构。研究语言词汇的这种高度系统化的结构,是现代语言学的一个新方向。

语言词汇的这种高度系统化的结构明显地表现在单词的搭配关系(collocation)上。所谓“搭配”,就是指某些单词常常跟与它们有关联的一些单词一起使用的现象。

例如,在英语中,句子“Theymake a bigmistake.”(“他们犯了一个大错误”)是可以接受的,而句子*“They make a largemistake.”就显得有些怪。其原因在于,当描述mistake比较严重时,往往使用big而不用large,也就是说,mistake倾向于与big搭配,而不倾向于与large搭配。研究这样的搭配有助于我们理解词汇的细微差别,提高遣词造句的准确性。

英国语言学家弗斯(Firth)早就关注到单词之间这种搭配关系。

弗斯指出:“意义取决于搭配”是语言组合平面上的一种抽象,这种搭配研究从具体的单词与单词之间的关系入手,和传统语言学中仅仅从“概念”上或“思维”上考察词义的方法截然不同。

例如,英语中cow(母牛)常常和动词to milk(挤牛奶)一起使用。这两个词往往是这样搭配的:

They are milking the cows(他们给母牛挤奶)。

Cows gave milk(母牛提供牛奶)。

可是,tigress(母老虎)或lioness(母狮子)就不会和to milk搭配。讲英语的人不会说:

*They aremilking the tigresses.

或   *Tigressesgive milk.

由此可见,从搭配关系上看,cow的形式意义与tigresslioness是有很大差异的。

弗斯还指出,在搭配关系上,语言表现出严格的系统性。例如:

a

b

strong argument

(有力的论据)

powerful argument

(有力的论据)

strong tea

(浓茶)

powerful whiskey

(烈性的威士忌)

strong table

(结实的桌子)

powerful car

(动力大的汽车)

这里的结构是“形容词+名词”。在a栏,argumentteatable出现在strong之后,三者属于一个系统;在b栏,argumentwhiskeycar出现在powerful之后,三者同属另一个系统。讲英语的人,不能说*strongwhiskey,也不能说*powerfultea,否则,系统就乱套了。

据此,弗斯提出了“观其伴而知其意义”(a word is characterized by the company itkeeps)的方法论原则。

因此,离开了单词与单词之间的搭配关系,要判断孤立单词的意义就相当困难。

早在1955年,机器翻译的先驱者韦弗(Weaver)对于单词的搭配关系的重要性曾经做过如下的解释。他说,如果一个人想了解书中某个单词的含义,假设他带了一个不透明的面具,面具上只有一个单词宽度的小孔,他通过小孔来看这个单词,如果他一次只能看到一个单词,那么显然他不能立刻决定在该时刻看到的这个单词的意思。但是如果不断地加宽不透明面具上的小孔,直到他不但能看到有关文本中的这个单词而且还能看到该单词两边的N个词语,那么如果N足够大的话,他就能毫无歧义的判定这个单词的意思。韦弗是机器翻译的开创人之一,他的这种解释生动地揭示了搭配关系对于理解单词意义的重要性。

搭配关系如此重要,因此,在自然语言的计算机处理中经常使用搭配关系来进行多义词的词义排歧(wordsense disambiguation)。

1995年,美国计算语言学家雅洛夫斯基(Yarowsky)提出“一个搭配一个词义”one sense per collocation)的假设,这个假设基于下面的直觉:和目标词义有很强联系的特定词语或短语不太可能与其它词义共现。雅洛夫斯基为每一个词义选择一个单独的搭配作为词义排歧的种子集,取得了较好的词义排歧效果。在旮勒(Gale)1992年研究工作的基础上,雅洛夫斯基在1995年还提出了“一段话语一个词义”one sense per discourse)的假设。他们注意到如果一个特定词语在一段正文或一篇文章中多次出现,那么这个词语通常具有相同的意思。这个假设的有效性依赖于语义的粒度,并且不是在每一篇文章中都有效;在大部分情况下,语义粒度越粗越有效。

那么,怎样来分析这种搭配关系呢?弗斯提出,可以把单词的意义做进一步的分解,把单词的意义分解成一些意义要素的组合。例如,在英语的darknight(黑暗的夜晚)这个短语中,night(夜晚)的一个特定的意义要素和dark(黑暗)的一个特定的意义要素产生搭配关系,而dark的一个特定的意义要素自然也和night的一个特定的意义要素产生搭配关系,这样,我们就能理解到darknight的含义。这种方法把意义分解为意义要素的组合,实际上就是一种义素分析法。

早在20世纪40年代初期,结构主义哥本哈根学派的代表人物叶尔姆斯列夫(L.Hjelmslev)就提出了义素分析法的设想。20世纪50年代,美国人类学家朗斯伯里(F.G.Lounsbury)和古德纳夫(W.H.Goodenough)在研究亲属词的含义时明确地提出了义素分析法。20世纪60年代初,美国语言学家卡兹(J.J. Katz)和弗托(J.A.Fodor)提出了解释语义学(interpretivesemantics),将义素分析法引入语言学中,为生成转换语法提供语义特征。

例如,像英语中的hen(母鸡)、rooster(公鸡)或chick(小鸡)这样的词,都存在共同之处(它们都是用来描述“鸡”的),也存在不同之处(它们的年龄及性别各不相同),可以用来表示某种基元意义的义素(femalechickenadult)表示如下:

hen

+female, +chicken, +adult

rooster

- female, +chicken, +adult

chick

        +chicken, -adult

这样,把义素按照不同的方式组合起来,就可以揭示出henroosterchick在意义上的差别。

但是,这种义素分析法中使用的义素,是由语言研究者凭自己的语言经验来确定的,往往带有主观性。

本书作者李斌博士在前人研究的基础上,提出了词语的认知属性(cognitiveproperty)的概念。认知属性是词语在日常认知层面的意义。例如,汉语“猪”的认知属性是“蠢”、“笨”、“懒”、“肥”。这些认知属性不是凭人们自己的语言经验来确定的,而是从大规模的网络数据文本中使用统计方法提取的,每一个认知属性还带有它们在语料库中的概率。这样一来,便避免了义素分析法中确定义素时的主观性,保证了认知属性的可靠性。这是一个很大的进步。

为了获取汉语名词的认知属性,李斌博士使用“本体词+像+喻体词+一样+喻底属性”的明喻句式,从网络上采集了100多万条带有概率的“喻体词语-属性”对,经过筛选之后,最后得到23万条“词语-属性”对,覆盖了8万多个词语和10万多个认知属性,其中具有5个以上认知属性的词语达6745个,建立了词语认知属性的语言知识库。

在词语认知属性的语言知识库的基础上,李斌博士进行了一系列的理论和计算研究,取得了很好的成绩。我仔细阅读了本书的电子稿,感触最深的主要有如下几点:

第一,  把计算机处理词义需要的知识分为三种。本书明确提出,计算机处理词义时需要有百科知识、日常感知知识和语言知识三种知识的支持,但是,在处理日常文本的词义时只需要日常感知知识和语言知识这两种知识,只有在处理科技文本的时候才需要百科知识。这样便把本书的研究重点集中在日常感知知识和语言知识方面,并特别注重日常感知知识的处理。

第二,  构建了中英文认知属性库,并在此基础上对汉语和英语的认知属性进行了比较,发现这两种语言的共性和差异,并进行了跨语言的情感分析。

第三,  提出了基于认知属性计算词语相似度的方法。在计算语言学中,相似度计算的方法有多种,本书在前人研究的基础上,提出了独具特色的认知属性交集算法、认知属性相关度算法和认知属性相似度算法等三种不同的算法来计算词语的相似度,其中认知属性相似度算法效果最好,更加符合人们的日常感知。

第四,  使用名词的认知属性来解释汉语中程度副词和名词的特异搭配。传统语法认为这样的副名结构是不合汉语语法的,但是实际的语言生活中副名结构却层出不穷,语法书的规定与现实的语言现象发生了矛盾。为了解决这个矛盾,本书通过名词认知属性的分析,发现了名词进入副名结构的关键条件不仅仅在于名词具有某种特征属性,而且还在于名词和属性之间具有高度的相关性,这种相关性可以是先验的,也可以是由上下文赋予的。因此,本书提出,这种副名结构是语言发展中的新现象,使用名词的认知属性可以得到合理的解释,不能轻易排斥。

第五,  开发了普通列表视图和动态图形查询界面。本书使用斯坦福大学开发的三维可视化工具,开发了能对词语认知属性库进行多种查询的可视化界面,可以从多个角度直观地描绘出词语之间的认知语义关系,便于用户操作和使用。

第六,  使用认知属性来检验原型范畴理论。本书对于“鸟”、“水果”、“交通工具”三个类别的词语进行了典型性分析,基本验证了原型范畴理论,并使用二部图来探讨认知属性库和原型理论的模型差异。

本书创新性强,实例丰富,数据可靠,图文并茂。相信本书出版,将有助于推进我国对于词语认知属性的研究。

2011年李斌博士曾经出版过《动宾搭配的语义分析和计算》一书,也是专门探讨搭配关系的。现在,李斌博士更上一层楼,进一步从认知属性的角度来探讨搭配问题,在研究的学术深度上更加深入,在使用的计算技术上更加精进,在观察语言现象的粒度上更加细致。李斌的进步使我这个古稀老人感到由衷的高兴。希望李斌博士继续努力,知难而进,为我国的语言学事业添更加坚固的砖,建更加漂亮的瓦。

冯志伟

2016315日于德国海德堡




http://blog.sciencenet.cn/blog-39714-1097936.html

上一篇:《现代汉语动宾搭配的语义分析和计算》冯志伟先生2011年赐序
下一篇:扒扒世界上第一位获公民身份的机器人苏菲亚是什么鬼

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-3-24 14:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部