随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

悼念温端政先生:词和语的分立

已有 1976 次阅读 2020-4-20 12:21 |个人分类:Computational Linguistics|系统分类:科研笔记

按语:从今日语言学公众号看到温先生去世的消息,必须悼念一下,特别是先生提出来的词语分立的问题,需要讨论一下。


-------------------------------------------------------------------------------------------------

中国著名语言学家、山西省社会科学院语言研究所名誉所长、终身研究员温端政先生于2020年3月23日19点30分在温州逝世,享年90岁。


温端政先生1931年9月出生于浙江省平阳县麻步镇雷渎村,中共党员,山西省社会科学院语言研究所名誉所长、资深研究员、终身研究员,语汇研究与辞书编纂中心主任,人事部中青年有突出贡献专家。他创建山西省社会科学院语言研究所并担任所长,牵头创办《语文研究》,先后担任主编、编委会主任,倡议并作为主要成员牵头筹备成立山西省语言学会、山西省方言学会并先后任山西省语言学会副会长兼秘书长、名誉会长,还曾任山西省语言文字工作委员会专家咨询组组长、山西省语言文字工作委员会副主任,以及中国语言学会理事、全国汉语方言学会理事、中国辞书学会理事等。


温端政先生主要从事汉语方言学和汉语语汇研究。在汉语方言学方面,数十年间致力于晋语研究,是著名语言学家李荣提出的“晋语分立”的主要支持者之一,先后主编了“山西省(县、市)方言志丛书”(41种)、《山西方言调查研究报告》(联合主编)、编纂《忻州方言词典》(合著)等并发表了系列晋语研究论文,提出了许多重要的观点,论证了“晋语分立”的可能性和重要性。此外,还调查了浙江省18个县的方言并出版《苍南方言志》、发表多篇论文。在汉语语汇研究方面,首倡“语词分立”,是汉语语汇学的构建者,出版了《歇后语》《谚语》《二十世纪的汉语俗语研究》(合著)、《汉语语汇学》《汉语语汇学教程》《汉语语汇研究史》(合著)、《惯用语》(合著)、《语典编纂的理论与实践》(合著)、《语汇答问》《语词学基础》等著作并发表了系列论文。温端政先生还把语汇学理论运用到语典编纂实践中,主编或联合主编了《中国俗语大辞典》《古今俗语集成》《新华语典》等四十多种大、中、小型语典,主编的国家“十三五”重点辞书规划项目成果《语海》,即将出版。


温端政先生千古!



温先生提出“语词分立”说的理由,最初见于和沈慧云研究员合写的《“龙虫并雕”和“语”的研究——敬以此文纪念王力先生百年诞辰》一文。该文认为: “语”在性质和作用上都不相当于一个词,“语”不是词的等价物,不属于“词汇单位”。理由有以下四点:



1.“语”是由词和词组合而成的,是大于词的语言单位;
2.语的意义和词的意义虽然都具有“整体性”,但有着不同的特点和性质:概念性是词义的基本特征,而语义的基本特征是它的叙述性;
3.比起“词”来,“语”的固定性是相对的;
4.“语”和“词”一样,是现成的语言材料,都不是说话的人在交际时临时造出来的。但是它们的语法功能却不完全一样。


------------------------------------------------------------------------------------------------

        从计算语言学的角度来说,词和语的界限很难划得清。我们多年从事古代汉语和现代汉语的分词和词性标注研究,一直都觉得大体上可以划得清字和词,但是绝对的给出定义很难,特别是区分词和语的时候。除非完全从字数上规定,超过4个字的肯定是语,也最多是把长的能相对划分出来,但对于“中华人民共和国外交部”这样的专名也依然很头疼,到底算几个词要根据不同的应用来取舍。习语有些短小精悍,一不小心也就成了词。三个字的“打秋闱”,两个字的“理发”算不算呢?
        词汇是语言的基本材料,可这材料不止一个品种,就像盖房子,有砖头,有瓦块,有钢筋,也有房梁。词就像砖头,少不了被砍裁成各种形状,语就像房梁似的,不一定是砖头做的。当然,这个问题不是那么简单的,需要另外探讨。而计算语言学不管那么多,希望基本单位越单纯越好。从今天的可操作性来说,有人提基于字的句法分析树,有人提基于词元(其实大约等于语素)的句法分析树都挺好。但是面对语,真的是力不从心。比如“力不从心”在语境里可以化用为“力不从脑”。我们曾经做过统计,四字格的成语的化用率是比较高的,用现有的句法分析方法都难以解决。
但这并不等于说温先生的说法不对。恰恰相反,我们在统计汉语词汇演化史的时候就遇到这个问题。大量的语混在词里,会造成词长(每个词有几个汉字)偏长。当然,去掉成语后,在大体上也不严重。我们只是说,词和语是有必要区分的,只是区分的标准真的很难。
        目前,我们在摸索的汉语句子语义表示方法CAMR,就专门针对大量习语构式进行了分析,发现大约70%的习语大概可以表示起来,已经算是在很大程度上解决了这个难题。但剩余30%还很难,需要我们继续探索,把汉语的语义表示问题基本解决。
温先生留下的课题,后人还会不断探索和前进。





https://blog.sciencenet.cn/blog-39714-1229251.html

上一篇:悼念英国语义学家莱昂斯爵士
下一篇:语言学能为抗疫做什么?
收藏 IP: 183.212.251.*| 热度|

1 武夷山

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 00:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部