||
与其说是字本位,不如说是言本位
邹晓辉、邹顺鹏
zouxiaohui@pku.org.cn
摘要:本文回顾了汉语研究的几次“本位”转换,认为这就是前辈在探寻汉语理论体系建构 的逻辑起点。如果必须在字与词之间做出选择,那么赵元任“字是中国人心目中的中心主题”的论断,以及徐通锵“‘词’不能代表‘字’而成为汉语的一种基本结构单位”的论断,都 选择了字。而之前其他人分别选择了词(马建忠 1898)、句(黎锦熙 1924)、词组(朱德熙 1982)。这是为什么呢?难道赵、徐两位语言学教授都不懂字和词的常识性义项?显然不是。他们是根据学术直觉做出上述判断的。有无可支持他们这种学术直觉背后的学术性义项呢?
这是笔者提出的问题或思考。本文从宏观的类与微观的例两个层面多个角度,分析了字与词的学术性义项,发现常识性义项往往是造成非学术性争议的起因。本研究采用史论结合方式和术语划分方法,通过对“语”与“字”两个系统的基本分类,凸显了音节、字、言“迭交”的特点,得出了“汉语就是组字成语的典例系统”的论断。陆俭明、冯志伟都说如果字本位 换成语素本位,也就不会有人再反对字本位了。因此为避免字本位提法所引起的非学术之争,与其说字不如说言是汉语的基本结构单位,以便于各位集中精力论述字素(周上之)、字词 (潘文国)、字语(邹晓辉)几组术语及其关系(这是字本位内部尝试统一认识的努力)。这是否比用语素替代字更可取呢?笔者希望就此听取“字本位 ”正、反双方各位专家的意见!
关键词:普通语言学、词本位、字本位、形式语言学、汉语形式化、言本位
1.引言
本文旨在论证汉语“字本位”实质是言本位的论断。其意义在于指出“字本位”立论与驳论双方均忽略的一个问题,即:汉语理论尤其是汉语语法理论界百年探索经历的“字->词->句->词组->字”这一看似回归的现象背后蕴含的深意。
汉语研究百多年在“词本位”(马建忠)、“句本位”(黎锦熙)和“短语本位”(朱德熙)之后重返“小学”传统的“字本位”(徐通锵),每一次都引起了激烈的争论。
《基础语言学教程》[1](简称:教程)指出:语言基本结构单位是驾驭语言系统的枢纽。以语言基本结构单位为“纲”,比较汉语和英语等印欧系语言在结构上的异同,揭示不同语言的特点,进而讨论语言结构的基本原理。《教程》仔细比较了汉语、英语、俄语等不同语言结构单位的异同后总结出语言基本结构单位的三个特点或三条标准,即:现成性、离散性和语言社团中的心理现实性。并称其为确定语言基本结构单位的原理。《教程》认为:英语等印欧系语言的基本结构单位有两个,即:词和句子,而汉语只有一个,这就是:字。学界同行就此提出了尖锐的质疑。例如:陆剑明和郭锐“汉语语法研究所面临的挑战[2] ”一文(1998)①就针对“字的定义”问题提出了如下质疑:
![]()
汉语“字本位”理论跟以往的语法理论完全不同。徐教授在《语言论》(1997)[3]这部专著中一再强调“字”是“汉语句法的基本结构单位”(11 页),“汉语的结构以字为本位,应该以字为基础进行句法结构的研究”(13 页)。质疑者指出:这是“字本位”的核心观点。可是,对“字”这个最核心的概念、使用最频繁的术语却并未给出严格明确的定义,而只是从不同角度做了一些说明。如:“字是形、音、义三位一体的结构单位”(266 页);“字是汉
①注:“汉语语法研究所面临的挑战 ”一文在 1998 现代汉语语法学国际学术会议第一次全体大会宣读。
语结构的枢纽,是语音、语义、词汇、语法的交汇点”(徐通锵 1988a);“‘字’是汉语对现实进行编码的基本单位”(433页);“‘字’是汉语结构的枢纽、结构关联的基点”(433 页); “字是汉语的基本结构单位,也是最小的结构单位”(434 页);“我们把字看成汉语句法的基本结构单位”(11页);“我们把‘字’定义为:语言中有理据的最小结构单位”(17 页);等等。这些说明,其含义并不一致,让人难以理解“汉语句法的基本结构单位”的字到底是指什么。“有理据”的含义很不确定。目前学界对“理据”的理解和看法,因人而异。由此可见,关于字的定义“很缺乏操作性”。这不能不影响人们对字本位理论的认识和理解。
如果以上质疑(1998)是针对《语言论》(1997)提出的,那么,这之后几年才出版的《教程》(2001)本应针对这些质疑做出解释,可是它不仅没有回答质疑的问题,而且还说:字义的特点是概括性、民族性、模糊性。这就等于承认了“字”的“含义很不确定”。
关于这个问题,笔者 2002 年与徐老面对面地交换过意见。徐老认为:关键是如何解决“操作性”的问题。因此,后来笔者提交给汉语“字本位”理论学术研讨会(青岛 2004-12)三篇论文②均围绕可否操作而展开③ 。《字本位与中文信息处理的基础》④简称《基础》)就是这之后所做的进一步探讨。本文是对《基础》涉及汉语独特性的三方面做的分析。
正文框架:(一)字词冲突分析,(二)宏观的义项分析,(三)微观的义项分析。
2.正文
2.1.字词冲突分析
由于“中文信息处理需要的,并不是现在汉语学界已有知识的照搬:有的方面需要根据计算机的‘能力’去总结汉语的规律,在一定程度上,还需要研究者抛开传统语言学的固有习惯和方法;有的方面则需要填补上已有知识的不足。” [4] 笔者认为根本在于字词冲突。
图 1 是笔者建构的“字->词->句->词组->字”汉语理论寻找逻辑起点的探寻次序示意图。

由图 1 可见,四个箭头指示出的 3+1 个“本位”学说的更迭次序。说 3+1 是因为一方面“字本位”还在探讨之中,暂无定论;另一方面,前三个“本位”与后一个的含义不尽相同。图中《马氏文通》[5] 字、词、句,都涵盖了,就是没词组。这是为什么呢? 因为它论述的古文例句是依据“因字而生句,积句而成章,积章而成篇。”[6] 而生成的。 还有一个问题, 《文通》仅论及字,为什么学界却说它是词本位的肇始呢?因为它借鉴的是拉丁语及其法语依据的词本位的观点、理论和方法,即:以词类为基础、以词法来描写句子语法现象。
黎锦熙借鉴英语句本位认为《文通》“仅就九品词类,分别汇集一些法式和例证,弄成九个各不相关的单位,是文法书最不自然的组织,是研究文法最不自然的进程。” [7]
龚千炎曾评价“从总体看,‘句本位’显然要比词本位进步,因为它不是孤立地静止地看问题,而是从整体中看个体、从动态中看语言结构”。也指出了汉语“句本位”的问题。
![]()
② 字的形式化定义、字组划分的方法和字与字组的关系
③ 见《融智学原创文集》和《汉语“字本位 ”理论及其应用》
④ 见《字本位与中文信息处理的基础》
朱德熙借鉴美国结构主义短语本位认为汉语句本位“这种语法体系里,由于词组、句子成分,中心词等基本概念之间,互相不协调,产生了许多矛盾。„缺乏严谨性,同时也缺乏简明性,实在不能说是一个好的语法体系。” 并且,在《语法讲义》里采用了词组本位。[8]朱德熙认为“由于汉语的句子的构造原则跟词组的构造原则基本一致,我们有可能在词组的基础上来描写句法,建立一种以词组为基点的语法体系”。[9]
朱老发现,词组本位具有词本位和句本位无法比拟的优点:由于汉语句子的构造原则与词组的构造原则基本一致,因此以词组为基点描写句法,内部一致,没有矛盾;同时词组的结构讲清楚了,句子的构造也相应地讲清楚了,用不着分两套讲,显得严谨、简明而又自然。
但是,后来我们的研究发现,词组本位存在一个基本问题,这就是:因为词组由词组成,而“词”是印欧系语言的基本结构单位。传统的汉语研究只有“字”而没有“词”。而词是《文通》从印欧语中移植进来的,在汉语中没有根基。赵元任(1975 年,国内 1992 年 233-234)认为印欧系语言的 word(词)这一级单位“在汉语里没有确切的对应物”。[10]
于是,新的问题又出来了。试想:如果没有词,又哪来词组呢?从词本位到句本位进而到词组本位,都是“外来的理论”在汉语中没有根基。这的确值得学界反思!
笔者认为:当初《文通》隐含了字词冲突的问题,而“字本位”的提出可视为字词冲突在理论上的凸显。为引起读者思考,结合图 1 笔者进一步提出以下几个问题供读者仔细体味。
明明是在“以词称字”的马建忠(1898)为什么却偏偏被视为汉语“词本位”的鼻祖?
本意在于“用句辖词”的黎锦熙(1924)又为何标榜自己的论著是汉语“句本位”呢?明确采用“词组代句”分析语法的朱德熙(1982,1985)为何自称汉语“短语本位”?突出强调“字词区别”的徐通锵一反常态提出汉语“字本位”(1992,1997)又是为什么?
笔者自 2000 年由徐通锵教授领进其以汉语为例而论述普通语言学的理论研究领域,并对回到传统的“字本位”顿悟以及它遭遇的几点质疑(字以及核心字等基本概念定义的困难,言文、字词以及字素几对矛盾造成的理论冲突)进行了独立的思考,从汉语形式化的角度,提出音节总量控制模型(GSCM)和文本总量控制模型(GTCM)及“层面型结构”与“线串型结构”如何“迭交 ”的观点[11] 。⑤
笔者认为,立足于“音字 ”作为“线串型结构”的“节点”(含“起点”)是“字本位”正视汉语的字具有语言与文字双重属性而做的一种具有建设性、启发性和可操作性的研究。
因为,只有用这种形式化的观点和做法才能避免字本位遭遇的语言与文字划界不清的难题。
图 2 是层面型结构与线串型结构“迭交 ”原理用于计算机字库设计优化的例证示意图。
![]()
由图 2 可见“音字 ”切分为“节点 ”与“形字 ”拆分为“部件”。“层面型结构 ”顶层可透视音形“迭交 ”关系。在图 2 中“义 ”这个“字 ”就位于“线串型结构 ”的“音字 ” (语言库可单列)与“层面型结构 ”的“形字”(文字库可简化)的“交汇处 ”。[12]这样,就为对象语言的字(象字)与解释语言的字(释字)的区分奠定了形式化的一个坚实基础。换句话说,字本位的字主要是音字和释字的结合而成的言。这里不存在语言与文字无法区分的问题(即:“言文冲突”问题)。只有音字、形字、象字三者结合时才会出现“言文冲突”。至于字与字组的关系涉及“字词冲突”是另一个问题,可通过对象字义项标注或解释来解决。
⑤ “从层面型结构与线串型结构的迭交着眼去定义字,这一思路很好”(徐通锵 2005)
2002 年黄昌宁教授邀请笔者到微软亚洲研究院为其介绍字本位与中文信息处理的研究成果。2007 年黄昌宁说“把分词过程视为字的标注问题的一个重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。在这种分词技术中,文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习架构上,既可以不必专门强调词表词信息,也不用专门设计特定的未登录词识别模块。这使得分词系统的设计大大简化。在字标注过程中,所有的字根据预定义的特征进行词位特性的学习,获得一个概率模型。然后,在待分字串上,根据字与字之间的结合紧密程度,得到一个词位的标注结果。最后,根据词位定义直接获得最终的分词结果。总而言之,在这样一个分词过程中,分词成为字重组的简单过程。然而这一简单处理带来的分词结果却是令人满意的。”[13] 同期邀请笔者的还有中国科学院的黄河燕、北大的俞士汶、清华的陈群秀、中软的关维忠等,而只有黄老表达了对字词关系的这种认识。
2.2.宏观的义项分析
图 3 是《基础》第一部分目录关系解说(涉及字词几组可形式化的基础“类”)示意图。
由图 3 可见,笔者强调语言的几“类”形式区分,旨在便于计算机针对这些特定的“类”建构实用的标注序列,即:对象语言“例”义项分析可标注的“多级”解释语言重用数据库。
从形式语言的角度看,汉语的符号对象只有一个类,这就是字;字内外的其它类(可由两个系列的各种亚类组成)都是解释字例义项的基本组合形式。同理英语的符号对象也只有一个类,这就是 word(词)。现代汉语的词不过是古代汉语的字与外语 word(词)迭交的一个类。这些是对于人脑的基本形式分类;对电脑而言在美国标准信息交换码(ASCII)的字符库里三者都必须化为同一个类,即字母组合形式。
图 4 是汉外两种语法术语框架(分别基于字和词而建构的两类区分框架)示意图。
由图 4 可见,汉语的特点,除了具有组字(音字)成语(言、辞、链、块、读、句) 这种由小到大的结构层次性特征之外,还有言、辞、块和句在特定语境限制条件之下的互换性特征,即:言、辞、块在解释“象字”义项一致时的等价性,辞句在语法形式上的同构性。
如果以一种双语对等的视角来看,那么,语汇一级,汉语的字内外组合变换与英语的词内外组合变换,除了符号(大小字符集)组合形态的差异之外,就是各自标音取意的方式之不同,其中,最突出的区别就是汉语音字的单音节特性和英语单词的混音节特性造成的彼此自身与后续结构单位(如汉语的辞链块和英语的三类对应的词组)之间如何相互区别的方式方法的不同,正是该区别决定了汉英两种语言形态之间的巨大差异:汉语丰富的字内语素及其表现为偏旁部首的固定显性的形态特征被固着于形字,音字分合而组成辞、链、块的过程,一方面,由于“形字”与其“迭交”所含的内部语素(偏旁部首)因固着而相当于隐性化了, ⑥另一方面,由于引入词的概念而带来的不能独立使用的字间语素与可以独立使用的言、辞、链、块之间可能存在的相互嵌套关系,致使音字的属性变得复杂;相反,英语(而形态变化较丰富的其他西方语言,如德语、法语和西班牙语等等更不必说)则由于其词形的变化可因其在句中的具体位置不同而改变其相应的具体形态,从而,使其内部语素(词内语素)及其形态特征基本上显性化了。
图 5 是笔者建构的汉语“字”和“语”两大分类体系(文字和语言的关系清晰)示意图。

由图 5 可见,作为汉语基本结构单位的“字”或“言”位于“辞、链、块、读、句”等衍生组合形式或其后续结构单位的逻辑起点。必须指出,字和语的分类蕴含字词关系,而字词的范畴“迭交”却蕴含中、西两类语言各自复杂的背景。
图 6 是笔者建构的汉语“字”和“语”两大分类体系详解(具有启发意义)示意图。

⑥ 《字本位与汉语言研究》形位学
由图 6 可见,“语(言、辞、链、块、读、句、段、篇)”与“(音、形、实、虚、象、释、用、解)字”之间“迭交”于“言”这一单音节的汉语基本结构单位,汉语的其它结构单位均可视为单音节的“言”的衍生组合形式或后续结构单位。古今汉语均满足这个特点。
在图 6 中,“内部语素”和“外部语素”以及“微观语用”反映字词冲突以及字素冲突。笔者建议:汉语研究最好把“字内语素”和“字间语素”以及“非语素字(可独立使用的言)”分别以“内部语素说”和“外部语素说”以及“微观语用说”的划分方式进行专门的研究。
实践中可通过“字”或“言”的义项分析,相应地建构《义项字典》和《用例辞典》,同时,汇编《汉语链表》和《语块手册》。
综上所述,一方面,从语义和语法的角度深挖汉语的字内与字间两种语素形态组合变换的形式信息,另一方面,如图 4 所示可在汉语的言、辞、链、块和英语的词及三类对应词组之间,寻求汉语的字与英语的词之间在义项细分与解释的层次相互对接解释或互译的纽带。
由此可引出由字向词(汉译英)和由词向字(英译汉)的义项划分或双向标注。如通过大学课堂的计算机辅助双语教学中汉语的字与英语的词的义项分析或标注,可把汉英-英汉(地道而常用的言辞或词语)双语转换工具的使用以及验证的过程融入上述义项划分或双向标注的过程,则可让在校生有机会参与这种创造性合作型生产式教研融智活动。⑦
2.3.微观的义项分析
《基础》第二部分,即:微观分析工具。义项分析(即精准知识处理)的人机协作方案。
图 7 是《基础》第二部分目录(标明了形式信息处理和内容信息处理的关系)示意图。
由图 7 可见,“计算机辅助双语教学中字与词的义项分析”的方法及结果。其中,“三解”及“三集”是形式信息处理;“三注”是内容信息处理;“三表”是形式与内容的结合部。⑧
图 8 是微观分析工具的设计原理(“孪生图灵机”)示意图。

![]()
⑦ 注:这种创造性合作型生产式教研融智活动,通过大学语言课和计算机课的尝试,已看出很好的前景。
⑧ 注:鉴于字数限制,本文省略细节可见:融智学专著和一种基于双语自动转换的间接形式化方法(发明专利申请号 2010101752962)。
由图 8 可见,左边孪生图灵机 a(与中间的 b 和右边的 c 均等价),其特征在于 b 所述的天平式计量转换装置是基于“同意并列、对应转换”法则而建构的,其具体使用方式由 c基于可穷举汉字集而构建,通过标准化与个性化结合的“双列表”实现数-字分工协同计算。
图 9 是体现人机协作互补的一整套约束机制(具有“多胞冯氏机”存-处功能)示意图。

图 9
由图 9 可见,一系列的“双列表”⑨ , 左列序号“音节总量控制模型(GSCM)”数据自动查询经“双列表”自动转换可有针对性地重用右列⑩ 的字与各级“字组”⑪。“双列表”左、右一一对应的关系可用“ID= IK+IU ”(恒等式)表示,其中“ID 、IK 、IU”分别表示特定的总量数据信息与其中蕴含的已知信息和未知信息,“ID=n2 ≈nm=b”(矩阵)表示其计算原理⑫。图 9 虽然只展示了字的义项分析示例(即字间形式信息可标注)途径及可重用工具,但结合图 2 所示字内与字间形式信息的关系即可理解其划分或标注的具体途径。词及词的义项则由“言、辞、链、块”代之。
3. 结语
由此可见,字或言是构成辞、链、块乃至读和句的基本结构单位。这是毫无疑问的。而在整体上等价于词及词组或短语的“言、辞、链、块”则较好地解决了字词冲突的问题。
笔者通过(一)字词冲突分析、(二)宏观的义项分析、(三)微观的义项分析,可断言“字本位”理应是“言本位”的取向。“字本位”所说的字是由音字与其义项构成的言,即:
![]()
⑨ 孪生图灵机的一种表形式:多胞冯氏机
⑩ “专家-用户 ”(师生)选订
⑪ 有汉语思维能力或选择习惯即约束条件“言、辞、链、块 ”或“字间语素和汉化的词及词组 ”
⑫ 矩阵提供了计算保障
汉语“字本位”理论建构的逻辑起点,之后的“辞、链、块”均由“言”所构成。
因为,如果仅就形式而言,那么,汉语的字仅指“音字”,即:“言”的形式;中文的字则仅指“形字”,即:“文”的形式。在形式上这就是语言与文字的区别(简称“言文区别”)。
同理,如果仅就形式而言,那么,西语的词仅指“词形”,即:“言”的形式;西文的字则仅指“字母”,即:“文”的形式。在形式上这也是语言与文字的区别(简称“言文区别”)。
可见,汉语的“言文区别”具有“非显而易见性”而西语的“言文区别”则显而易见。
因此,仅就形式而言,我们可以语言的共性是“组言成语”,而汉语与西方语言的个性则分别是“组字成语”与“组词成语”。厘清了这成关系,我们对字与词的“迭交”关系也就很好理解了。字与词均通过言而“迭交”。
由于区分“专识性义项”和“常识性义项”是正确界定“字本位”所说的“字”的基础,因此,本文对“言文关系”、“字语关系”、“字词关系”以及“字素关系”的探讨或界定,都应当从“言本位”的角度明确其“专识性义项”,而不能简单地套用以往的“常识性义项”。否则,就会因为忽略了从“对象语言”和“解释语言”这一形式语言分析的角度来看待上述几组关系,也就会由于各人认识或理解问题的局限而陷入“盲人摸象”纷争误区,从而,会耽误正常的学术交流,进而,阻碍学科的正常发展或进步。
为此,笔者主张:采用“专识性义项”分析的方式来解决概念体系中具有逻辑起点性质 的基础概念或术语的义项划分问题,从而,避免人们自觉或不自觉地采用“常识性义项”来 解释只有采用“专识性义项”——术语的严格定义,才能够说得清楚的事情或问题。例如,如果要妥善地解决“字本位”的“言文区别”问题,那么,就只有用“音字”和“形字”的 这类“专识性义项”作为判断或取舍的尺度,才能准确无误地解释清楚汉语的字仅指“音字”而中文的字则仅指“形字”这样的“言文区别”问题,而不再在继续误解“字的双重属性”。因为,关于“字本位”的言文误解问题,只有仅从结构形式而论,才能正确理解作为“汉语 基本结构单位的字”的形式化义项只存在“音字”和“形字”两种结构形式里,其中“音字”是基本的,因为它作为言不仅是单音节而且也是语的八个亚类中最小的;而“形字”则不是 基本的,因为它位于形的顶层,它下面至少隔着三个低层的偏旁部首结构,最后才是最基本 的笔画。不仅“言文关系”,而且,“字语关系”、“字词关系”及“字素关系”均可这样处理。
致谢
首先,笔者要感谢已故的徐通锵老师把邹晓辉领进了以汉语为例的普通语言学基础研究 领域(他在一开始就声明:反对比支持“字本位 ”观点的人多,为什么这样还要坚持呢?因它涉及汉语理论乃至普通语言学理论的在创新和进一步的发展)!笔者还要感谢陆俭明老师和郭锐教授联名撰写的质疑“字本位”的文章(因为它帮助笔者较早地看清楚了“字本位”在理论表述上的关键问题)!进而,笔者还要感谢伍铁平教授公开反对“字本位 ”的激烈言论(因为它们帮助笔者进一步看清楚了“字本位 ”在理论思考上的一些重要问题)!同时,
还要感谢冯志伟老师亲自给笔者谈到了徐老师“字本位 ”为何会受到同行反对的一个原因!
最后,笔者要感谢潘文国老师和周上之教授在“字本位 ”理论的完善和发展上所做的努力!
当然,也要感谢王洪君老师和李娟副教授延续“字本位 ”理论的教学和研究以及论著修订!
参考文献
[1] 徐通锵.基础语言学教程[M] .北京大学出版社. 2001
[2] 北大计算语言学研究所.汉语语法研究所面临的挑战[C] .计算语言学文集(第 4 集).2000
[3] 徐通锵.语言论--语义型语言的结构原理和研究方法[M] .东北师范大学出版社.1997
[4] 许嘉璐.现状和设想——试论中文信息处理与现代汉语研究[J].中国语文.2000 年第6 期
[5] 马建忠.马氏文通[M].商务印书馆.1983
[6] 刘 勰.文心雕龙[M]. Chinese Text Project[DB]on line.
[7] 黎锦熙.新著国语文法[M].湖南教育出版社.2007
[8] 朱德熙.语法讲义[M].商务印书馆.1982
[9] 朱德熙.语法问答[M].商务印书馆.1985
[10 徐通锵.语言论[M].东北师范大学出版社.1997
[11] 邹晓辉.义项语汇典例(SVDE)的总量控制模型[A]. Recent Advancement in Chinese Lexical Semantics (CLSW-5). Singapore: COLIPS.2004
[12] 邹晓辉.字本位与汉语形式化[M].字本位理论与应用研究. 山东教育出版社.2008
[13] 黄昌宁;赵海. 中文分词十年回顾[J].中文信息学报. 2007 第 3 期
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-27 23:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社