《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《立委科普:现代汉语语法随笔》

已有 4247 次阅读 2010-2-11 02:47 |个人分类:立委科普|系统分类:人文社科

【置顶:立委科学网博客NLP博文一览(定期更新版)】

立委按:本随笔属心得,信马由缰,不在全,不求稳,不引经据典,欢迎讨论批评。

现代汉语语法随笔

语法表达组词造句的规律。Native speakers 心中都有一套语法,尽管由于地域、出身、教育程度等等的差异,每个人心中的语法和其他 native speakers 并不完全重合,但是其核心部分是相同的,否则语言交流就不可思议。

为了帮助语言教学或者语言处理,语言学家试图把 native speakers 心中的语法描述出来。描述出来的语法可以分为宽式语法和严式语法两种。严式语法只描述 native speakers 的“最大公约“的核心部分,而宽式语法则描述其“最小公倍”的语言现象。很多有争议的现象处在两者之间。一般而言,宽式语法具有坚固性(robustness),适合做语言分析(parsing),譬如作为机器翻译的源语的语法;严式语法不能概括灰色地带的语言现象,比较适合语言生成(generation),譬如作为机器翻译的目标语的语法。

语法一般由词法(Morphology)和句法(Syntyax)两大部分组成,但现代汉语词法和句法的界限并不分明,存在很多中间状态。好在词法句法的内部规律大同小异,对于中间状态,是归为词法还是句法,很大程度上是语法系统内部(system-internal)选择,对语言规律的总结没有本质的影响。

现代汉语由古汉语演变而来。说到这里,简单介绍一下语言类型。世界上的语言,词法简单的句法往往复杂(譬如英语),反之亦然(譬如俄语)。两极的状态有所谓孤立语和多式综合语。多式综合语句法极其简陋,但词法繁复,一个句子的形式表现为一个内部结构复杂的词。孤立语的语法基本等于句法,没有或者缺乏词法。古汉语就是典型的孤立语类型,几乎没有词法,语言的音义结合的最小单位语素(morpheme)跟句法分析的最小单位“词”是重合的,表现在口语上是音节,在书面语上就是汉字。大体上说,每个汉字就是一个词。随着语言的发展,多字词特别是二字词越来越多,尽管还有很多词法句法之间的灰色地带,主流语言学界一致认为词法是现代汉语语法的一个不可或缺的组成部分。

汉语词法

词法管的是由字组词,输入的是字串,输出的是词(严格的说是语法词)。

由于大量存在的灰色语言现象,词的定义是最具争议的语言学论题之一。有关这个论题的两个主要概念是词汇词(vocabulary word)和语法词(grammar word),混淆二者的区别是很多业内/业外的争论乃至口水战的主要原因(熟悉汉语语法学史的人知道曾经有过多少学术口水仗)。

词汇词比较好定义,简单来说就是词典中的词条,它是可以枚举的(enumerable)。语法词的标准定义是句法分析的最小单位,可是怎样判别最小单位并不容易。词汇词和语法词有很大的重合面,但绝非一一对应,一个词汇词可能比语法词小,也可能是比语法词大的单位,举例如下。

(a) 性 名词性后缀(类似于 -ness),小于语法词
(b) 洗 动词,小于等于语法词
(c) 澡 名词(只用于搭配性结构,如“洗澡”),小于等于语法词
(d) 澡盆 合成词, 名词,等于语法词
(e) 洗澡 动词组(动宾结构),大于语法词
(f) 他们 名词组,大于语法词
(g) 城门失火 单句(成语),大于语法词

汉语词法的内部语法关系跟句法大体相同,主要有主谓关系,动宾关系,动补关系,偏正关系(壮语性修饰关系,定语性修饰关系),并列关系。汉字同样分为名、形、动、副等类别。举例如下:

主谓关系:心-得(名动式名词) / 头-疼(名动式动词) / 猫-叹气(名动式名词:一种盛食品的密封容器)

动宾关系:定-义(动名式动词) / 哭-鼻子 (动名式动词)/ 吃-食堂 (动名式动词)

动补关系:改-良(动形式动词)/ 提-高(动形式动词) / 看-穿(动动式动词) / 打-倒 (动动式动词)

壮语性修饰关系:
(1)形容词修饰动词(形动式动词):小-看/ 重-视
(2)副词修饰动词(副动式动词): 绝-无/ 仅-有
(3)副词修饰形容词(副形式形容词):不-良
(4)副词修饰副词(副副式副词):绝-非 / 并-不 / 尚-未 / 未-曾

定语性修饰关系:
(1)形容词修饰名词:副-词(形名式名词)/ 大-型(形名式形容词)/ 高-级(形名式形容词)
(2)名词修饰名词(名名式名词):语言-学 / 语言学-家 / 澡-盆 / 词-典 / 语-法 / 食-堂

并列关系:语-言(名名式名词) / 比-较(动动式动词) / 可-能(动动式动词) / 美-好(形形式形容词)

词法中最有意义的现象是所谓 Productive Morphology, 它能产生词典不能枚举的语法词。比如,下列词法规则就是产生性的:

[[可+Vt]+性] –> 抽象名词(Vt指及物动词)
例如:可-读-性,可-观赏-性

NP+化 –> 动词 (NP指名词短语)
例如:社会-化,黑社会-化,书斋-化,聊斋-化,小狐狸-化

”NP+化“规则是特别有意思的语言学现象,它反映了词法句法的灰色地带,以及词法和句法之间复杂的接口关系。在传统的语法框架里,词法句法的接口很简单:词法先于句法,词法的输出就是句法的输入。然而,这样的构架无法处理”NP+化“的现象,因为短语(NP)的构成属于句法的范畴,词(动词)的构成属于词法部分。这类现象构成了对传统语法构架的挑战,跟鸡和蛋谁先谁后的困境类似。

=====================================================================
参看立委博士论文第四章:Defining the Chinese Word

http://homepage.mac.com/liwei999/Publications_PDF/w...

Comments (4)
liwei12月 8th, 2008 at 6:21 am   edit

信马由缰,散文不散 (456 bytes)
Posted by: shijie
Date: June 18, 2007 06:31AM

对于Native speakers 来说,心中所存的与其说是“语法”,不如说是“语感”,那是在言语表达中的直觉判断和感受,而这种判断和感受则源于“约定俗成”。语法应该是语言学家们根据自然语言的综合分析,抽象提取出来的规则。理论是灰色的,生命之树常绿。“严式语法”拘泥于“规则”,描述科学的事物自然合用,但对付千变万化的自然口语则难免左右例外。“宽式语法”拘泥于“语言事实”,难免注重意义而忽视形式。真正的语法研究应该尽量做到形式和意义相结合。等待着立委的随笔成为论文。

liwei12月 8th, 2008 at 6:33 am   edit

先顶一下。有几点不解 (92421)
Posted by: eng
Date: June 18, 2007 08:13AM

1、什么是“可枚举的”?

如果是countable或是finite,则这世界上任何出现过的词汇的集合都是“可枚举的”。从上下文来看,“可枚举的”似乎是和“可产生的”对立的一个概念。但是似乎这里的“可产生的”词汇本身是用“词典不能枚举”来定义的。

2、词汇词到底是什么词?

“词典中的词条”或许过于简单了。因为这只是把定义替换了一下。我们还可以问,什么词应该收入词典,什么词不应该收入呢?如果说是“可枚举的词”,由上可知这几个定义形成了循环定义。

之所以有以上两问,是因为有些词典中(特别是英文词典)也在主词条下收入“可产生的”词汇。更复杂的情况是,有些词经过通常的“产生”过程(如加了前后缀)之后产生了意义变化,不能用通常的“原词意加前后缀意义”的方式来理解。当然这种情况在英文里比较多,汉语里面我不知道有没有。

———————————————————————
问题很好,回答如下 (92430)
Posted by: liwei999
Date: June 18, 2007 10:08AM

》1、什么是“可枚举的”?

》如果是countable或是finite,则这世界上任何出现过的词汇的集合都是“可枚举的”。

是从 enumerable 翻译过来的。应该这样来看,尽管世界上出现过的词汇的最终是有限的,但是,一个特定系统的词典通常是不能囊括的,除非这个词典无时无刻地搜刮各种新出现的组合。就 native speakers 而言,每个人的 vocabulary 虽然大小不同,但总是不能存贮世界上所有的词汇。

关键是,无论人脑还是机器,存贮世界上所有的词汇,即便可能,也是不必要的。因为产生式的构词法可以概括”生词“(从分析角度看),也可以随机生成新的词汇,语言由此生动:比如本池常用的新词”小狐狸化“。

所以,产生式词法(productive morphology)常常被称为”小句法“。

我们研制语言分析器的人,在开发系统的时候,常常根据具体情况,在 ”大词典-小语法“ 和 ”小词典-大语法“ 的设计中做出选择。一般来说,前者的词法规律被冗余的词条所掩盖,可能会漏掉一些未及囊括的现象,适合严式系统的要求。后者的规律体系相对复杂,但概括性强,可能容忍了某些不合法的现象,适合宽式系统的要求。我自己设计开发系统,往往先搭起框架,从”小词典-大语法“开始,随着资源的投入,逐渐向”大词典-小语法“的系统过渡。这样的开发过程比较现实,在宽严之间也好平衡。

》从上下文来看,“可枚举的”似乎是和“可产生的”对立的一个概念。但是似乎这里的“可产生的”词汇本身是用“词典不能枚举”来定义的。

“可枚举的”是和“可产生的”相对照,但不对立的一个概念。看上去有循环定义的嫌疑,但是如果放到一个特定时间的特定系统中,二者都针对一个静态词典而言,并没有矛盾。

》2、词汇词到底是什么词?

》“词典中的词条”或许过于简单了。因为这只是把定义替换了一下。我们还可以问,什么词应该收入词典,什么词不应该收入呢?如果说是“可枚举的词”,由上可知这几个定义形成了循环定义。

好问题。没有一个标准答案,一切看系统及其开发的具体条件(比如资源的充裕程度)和应用场合(从宽还是从严,在资源充裕的情况下,也可以逐渐做到宽严恰到好处)。但是,有一个基本原则通常作为词典收录的最低标准:对于语义的组合性(semantic compositionality)低的词汇,必须词典收入,否则一个系统就无法通过语言分析而达到解析语义的最终目的。换句话说,如果词汇的意义不能从其构成成分的分析中得出,就必须送入词典死记。所以,词典实际上是个垃圾箱,存贮了自然语言中大量不规则不逻辑的表达法和成语。这就回答了你下面的问题。

》之所以有以上两问,是因为有些词典中(特别是英文词典)也在主词条下收入“可产生的”词汇。更复杂的情况是,有些词经过通常的“产生”过程(如加了前后缀)之后产生了意义变化,不能用通常的“原词意加前后缀意义”的方式来理解。当然这种情况在英文里比较多,汉语里面我不知道有没有。

棒棒儿12月 8th, 2008 at 9:10 am   edit

楼主讲得非常有意思,值得好好学习一下。期待楼主讲syntax层次上的汉语分析。

liwei12月 8th, 2008 at 1:25 pm   edit

谢。我是三分钟热度,本来想一路写下来,搞个《语言学科普系列》,后来没有坚持下来。现在是随兴之所至,写一点随笔。

科普不好写。容易枯燥。所以对科普高手,心里是敬佩的。



http://blog.sciencenet.cn/blog-362400-294039.html

上一篇:《甜甜花絮:Practice Makes Perfect》
下一篇:[转载]《立委推荐:飞鹰 - 生命的起源》

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-10-15 00:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部