《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【立委科普:语言学的基本概念】

已有 5861 次阅读 2010-2-10 07:11 |个人分类:立委科普|系统分类:教学心得| 语言学

语言学是语言的学问,这学问的引人入胜之处,就在于其研究对象”语言”是一个人人知其然,很少人知其所以然的复杂的系统。复杂到什么程度呢,总之是很容易陷进去出不来。能出来的人不多,立委自以为是出来人,因此,斗胆开讲语言学学理讲座。外行看热闹,内行看奥妙,陪伴各位做一次语言学揽胜之旅。

谈语言学,从基本概念起。

1 语言

语言的本质是人类的交流工具。这句大白话我们在学理的讨论中会反复引用,以示人们在语言学的不毛争论中多么容易偏离这一基本常识。

乔老爷的形式语言理论创立以后,语言定义为合法语句的集合。这个理论是计算机语言及其汇编的基石,对于自然语言(natural language)也有很好的借鉴意义(如果能够正确理解语法的话)。

把语言看成语句(sentence)的集合,意味着语句成为语言研究的基本对象。实际上语言不是简单的语句集合,语句之上还有篇章(discourse)结构,还有跨句回指(co-reference, 比如”他”回指前句的”张三”)。为简化学理的讨论,这次揽胜之旅不再涉及篇章语言学,一切限于语句之内。换句话说,作为理论的第一近似,语句是语言研究的最大单位。

2 语言研究的目的

目的可以有很多种,务虚的目的包括探询语言的本源,语言和思维的关系,语言理解的心理机制等等。立委乃计算语言学人,不尚务虚,因此本讲座限于务实的宗旨。具体说,主要为了支持电脑分析(parse)和生成(generate)语言。

3. 自然语言理解

语义(semantics)是内容,语言是形式,分析和生成就是建立语言和语义的连接。由语言达至语义是分析的宗旨,由语义外化为语言是生成的目标。什么叫做理解了呢?就是从语言的一句句话,解析出了相应的语义。在电脑自然语言理解里,解析出的语义表达(representation)称为逻辑形式(logical form),它是 parsing 的目标。

语义主要由两部分组成,即词汇意义和语法意义。词汇意义建立单词和概念的联系,是词典的任务。当一个个词排列成句的时候,句子的含义不是这些词汇意义的简单相加,而是涉语句结构及其语法意义,它决定了词汇意义转化为语句整体意义的组合方式(所谓 semantic compositionality),从而实现理解,达到交流的目的。形象地说,词汇意义好像散乱的珍珠,是语法意义把它们串接成理解的项链。如果一句话描述了一个事件(侧面),理解就是要求解 who (施事) did (动作) what (受事) when (时间), where (地点), how (方式) and why (原因) 等等。施事、受事、时间、地点等叫做语义角色(semantic roles)。

看下列例句:奥运会开幕式定于2008年8月8日晚8时在北京举行。

查词典可得词汇意义,用括号表示:(奥运会) (开幕式) (定于) (2008年) (8月) (8日) (晚8时) (在) (北京) (举行) . 所以,分析理解的关键是解析(decode)内含的语法意义。句子的主体是主语谓语,先切一刀:

【(奥运会) (开幕式)】| 【(定于) (2008年) (8月) (8日) (晚8时) (在) (北京) (举行)】

主语谓语的中心词形成了句子的主干,表达的是施事和动作的关系:

(开幕式) … (举行)

主语中心词 (开幕式) 带有定语 (奥运会),表达的是修饰关系。谓语动词 (举行) 带有两个状语:时间状语 【(定于) (2008年) (8月) (8日) (晚8时)】和地点状语【(在) (北京) 】。这两个状语内部还有句法结构体现出来的语法意义,可以将其构成成分的各个词的词汇意义串起来,我们以后会进一步探究,先到此为止。

小结一下:自然语言理解的中心任务是解析语言单位之间的语法意义,即谁与谁发生关系以及关系的语义角色。

4. 语言单位:语素、词、短语和语句

语言研究的基本单位一般认为是语素(morpheme)、词 (word)、短语(phrase)和语句(sentence/clause)。当然还可以细分(比如乔老爷X-bar理论认为词和短语之间还有一个X-bar的单位, sentence 一般认为大于等于 clause),或施行不同的单位分类法,但这不是我们要争论的点,也不妨碍我们对学理的探讨。

语素的标准定义是音义结合的最小单位,书面汉语中绝大多数汉字对应的是语素,在英语里面语素是前缀、后缀、词干(e.g. un-read-able)和合成词里面的构词单位(e.g. black-board)。

语法(grammar)是构词造句的机制。它通常包括词法(morphology)和句法(syntax)两大块。从生成上看,词法的输入是语素,输出是词;句法的输入是词,输出是句子。在标准的语法模型里面,句法建立在词法之上,而”词”是二者的接口。可见,词是一个关键的语言单位。

什么是词?这个问题语言学家争论了很久,在汉语语言学界还曾展开过大论战,有真知灼见,更多的是不毛之争和口水战。争论的起因之一是因为书面汉语的书写系统是连续的汉字串,不象西方语言以空格分隔多数的词。更深层的原因是字和词之间有一大片灰色地带,而这和汉语的发展史有关。大体说来,古代汉语中的字和词基本重合,随着语言的发展,多音词(尤其是双音词)逐渐固定下来,成为句法基本单位的主流。由于书面汉语的惰性和传承性,字词的界限很不分明。一般来说,对于灰色地带,不同的理论模型可以有不同的处理安排,只要在系统内部(system-internal)可以自恰或摆平,没有绝对的对错之分。

总结前人的真知灼见,可以归纳如下:1. 现代汉语不同于古代汉语,词已经大于等于字(语素)而成为一个(独L)的语法单位;2. 应该区分语法的词(grammar word)和词汇的词(vocabulary word):尽管二者有很大的重合面,但它们不是对等的;3. 作为相对(独L)的语法单位,词指的是语法的词,而不是词汇的词;4. 词汇的词可以大于等于也可以小于语法的词,举例如下:

性:现代汉语中已经演变成后缀语素(-ness),小于词的单位,如:革命-性,可读-性
洗:动词(wash)
澡:名词(bath),一般不单用,与”洗”搭配使用:洗-澡,洗-了一个痛快的澡,澡-洗得怎么样?
澡盆:合成词(bath-tub)
洗澡:可分离的动宾习惯搭配,属于短语,是大于词的单位
城门失火,殃及池鱼:成语,属于语句,是大于词和短语的单位

以前很多关于字词的不毛之争是因为争论双方没有区分两个不同的概念(词汇的词和语法的词)而引起的。

世界上的语言很有意思,词法句法的比重因语言类型的不同而不同,一般而言,词法复杂的语言(譬如俄语、法语)句法相对简单,而词法简单的语言句法就复杂一些(譬如英语和现代汉语)。推向极端,在古代汉语这样的所谓孤立语中,词法基本为零,一切语法关系都是句法关系。所谓多综复合语(譬如有些印帝安部落语言)是另一极端,句法极为贫乏,一个简单句的语义常常通过动词主干上的种种前后缀的叠加来表达。

【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-294036.html

上一篇:《甜甜花絮:Practice Makes Perfect》
下一篇:《立委随笔:关于科学、宗教和信仰》
收藏 IP: 192.168.0.*| 热度|

1 张能立

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 07:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部