信息学基础研究分享 http://blog.sciencenet.cn/u/geneculture 语言理解&知识表达

博文

字本位与中文信息处理

已有 100 次阅读 2026-1-27 15:10 |个人分类:语言学基础研究|系统分类:论文交流

字本位与中文信息处理

——解析字与字组的关系探索汉语形式化新路

(典型实例:由一字精解字字精解

邹晓辉 

949309225@qq.com 

 

【摘要】本文是笔者探索汉语及中文形式化信息处理新方法的总结。英语和基于英语的形式化方法及其好处学界周知,转换生成语法及其后续的各派理论的发展早已为计算机科学和计算语言学普遍接受或了解。模仿它们的汉语词本位、短语本位和句本位理论违背了汉语的特点。因为汉语中没有词(赵元任)。这种跟着西方人思路转的研究是无法实现赶超国际水平的目标的(徐通锵)。英语形式化方法突破不了中文信息处理的技术瓶颈。如:词的切分标注就面临消歧难题(俞士汶、孙茂松、黄河燕等)。本项研究课题摆脱了流行思路的束缚,以字本位理论为基础研究中文信息处理的问题,探索形式化新路。这抓住了汉语特点的关键(徐通锵),因为字是中国人心目中的中心主题(赵元任)。

【关键词】基础语言学,字本位,计算语言学,形式化,计算机辅助,中文信息处理

【专家评语】

这是一个前沿性的课题。现在语言信息处理的思路大多受国外语言理论的影响,而如何根据汉语的特点,运用信息科学的技术,进行中文信息处理,赶超国际水平,是我们急需探索和解决的一个重大课题。(本文的)方向正确,思路清楚,立论有据,是有原创性的新著,其形式化的研究成果也具有广泛的使用价值。(语言学专家:徐通锵)

《字本位与中文信息处理的基础——解析字与字组的关系探索汉语形式化新路》是作者经过长期深入研究和在计算机上通过实践检验的重大科研成果。这个成果的理论意义和实用价值在于:根据汉语的实际特点,运用信息科学先进技术从事中文信息处理,赶超国际水平。(计算语言学专家:鲁川)

它较好地实现了与国际学术研究的接轨,因而处于国内同类课题研究的先进水平;作者倡导的融智学新范式和协同智能概念体系,不仅对于我国语言科学和信息科学及其相关学科的研究具有重要的学术探索价值,而且对于建立面向多文种语言信息处理的计算语言数据库和开发拥有自主知识产权的信息产品具有广泛的实际应用价值。(机器翻译专家:易绵竹)

语言的形成是一个十分复杂的过程,语言所表达的语义的解析更是一个复杂的问题。本书作者通过对中文语言文字的长期研究,积累了丰富的知识,提出了许多有见地的观点。本文提出了以字为中心,从字出发分析中文语义的一种新的方法。这些思想对于中文信息的自动化处理都提供了一种新的途径。(计算机科学专家:奚建清)

(本文)内容新颖,有较高学术水平,。消解歧义是自然语言处理的关键,本(文)提出的理论和方法,可以对于这个问题的解决提供新的思路。(自然语言处理专家:冯志伟)

协同智能计算语言数据库的设计方案中的13张表很有新意。如果对于汉语的这13张表一旦建立了起来,那么汉语分析中的各个层次上的歧义就会比较容易地解决。这是一件有创建性的工作。(清华大学智能技术与系统国家重点实验室专家:苑春法)

引言

长期以来,我们一直缺乏适合汉语及中文自身特点的系统化的语法理论,这严重地制约了中文信息处理的研究进展。《语言论——语义型语言的结构原理和研究方法》(1997徐通锵)和《基础语言学教程》(2001徐通锵)独树一帜建立了汉语字本位理论。本文在此基础之上做了进一步的基础性研究,在尝试对字与字组及其各种关系进行形式化描述的同时,也尝试对汉语及中文信息处理的形式化方法进行大胆创新。

由本文的标题和副标题可知,字与字组的关系的探讨是汉语字本位理论关注的基础性问题(属于基础语言学领域);汉语形式化是中文信息处理实践面临的根本性问题(属于计算语言学领域)。两方面结合导致本论题。本文的缘起:北大中文系语言学专家对字的认识分歧(至今尚未达成普遍一致的共识)。试问:作为自然人的专家尚且无法消除的分歧,怎么让计算机系统去重用?这类性质的难题也是主张强人工智能观点的中文信息处理专家们所面临的棘手问题。如,中国科学院计算机语言工程研究中心机译专家就说:对机器翻译而言,只有一个难题,就是消歧。清华大学计算机系自然语言处理课题组专家也明确地指出汉语在分词标注上存在技术瓶颈。北大计算语言学研究所专家还十分明确地指出(汉语及中文的)形式化非常困难。中国社科院语言学研究所机译专家公开指出语言学理论滞后制约了中文信息处理技术的发展。

同样研究自然语言,不同的学科有不同的视角,普通语言学站在人类智能主体的立场,采用的是自然人的视角;计算语言学站在人工智能代理的立场,采用的是计算机的视角;工程融智学站在协同智能计算系统的立场,采用的是自然人和计算机两者交互协同的视角。本文就是对从(必然兼容且优于前两种视角的)第三种视角而提出来的研究课题的回顾。

工程融智学的方法,以人机合理分工、优势互补,高度协作、优化互动的方式独辟蹊径,提出了自然语言理解的工程模型(基于Z-ASCIIGTCM/STCM与基于Z-UnicodeGSCM/SSCM)及应用模式(SDVE),如:两典一册。部分成果(1997-2005)已得到学术界多个课题组专家们不同程度的认可(见:专家评语)。本文将重点介绍其中近期取得的进展。汉语字本位理论方面,本文明确表述了字的迭交原理,直观地表述了字与词两种思维模式,二字组的构造原理;中文信息处理方面,本文明确给出了字处理的三合一设计方案(经过中文计算机输出输入系统终极标准信息交换码大字符集可小字符集化的字型库协同试运行一段时间之后可以中文基因芯片的形式固化),提供了两典一册(经过合作型生产式教学法推广普及活动检验之后可以中文语法芯片的形式固化)的示例。全局形式化标准平台,可为中文基因中文语法信息的提取以及(汉英/英汉)双语概念及命题知识的提取,提供人机合理分工、优势互补,高度协作、优化互动的优化环境。从而,可进一步为中文基因芯片中文语法芯片以及(汉英/英汉)双语知识(概念及命题)芯片的封装奠定形式化基础。这涉及业内普遍感兴趣的一组关键问题的解决,是适合汉语字本位语法形式化表述进而可改观中文信息处理形式化现状的新方法。

正文

字与字组的完全形式化解析,主要有三个步骤,即:1、字内信息处理(音形层解);2、字间信息处理(音节串解);3、字外信息处理(义项分解)。具体操作,涉及:人机之间的合理分工、优势互补,高度协作、优化互动。目标是:由一字精解字字精解

1 字内信息处理[音字与形字(含:笔画与偏旁部首)的层解]

1线串型结构层面型结构虚拟层解示意图。

{862462F0-290F-4560-BC6F-6E596A8B2E41}.png

1

笔者认为:汉语的单音节的字与英语的混音节的词是两种语言形式系统最根本的区别。为此,本文提出音字的概念和混音节的称谓,把形字(层面型结构)、音字(线串型结构)、实字、虚字、用字、解字并列,旨在突出:音字与字音,混音节与多音节,形字与字形、用字与解字、前字与后字、(二字)释辞与(一般)二字组的区别,强调:各自关注的重心、焦点以及主要研究对象的不同。本文之所以采用部分新概念和新称谓是为了使表达更到位,同时,也是给字的迭交原理、释辞公式和语块方阵的介绍等做必要的准备。

由图1直观地展示虚拟优化字库中线串型结构的音字与层面型结构的形字被层解模型。它体现字在形式上是由音字与形字这两个类迭交的复合类。可称之为字的形式迭交。

2是字内信息解析示意图。             

{8374FB39-331C-4A93-BD28-7A7A4488A17A}.png 

2

(虚拟的)音字和形字迭交不仅反映字的音形关系,而且还反映一字之内有丰富的字形信息,如:笔画和偏旁部首。粗分有五个层次,即:笔画、缺省的字内字、变形的字内字、正形的字内字、字;细分则有多个层次,即:一、二、三、多个笔画。这是字内信息自动计算的基础。

音字和形字迭交所揭示的音形关系,既可由音字串串解形字层层解直观展示(见:图1-2音字和形字迭交示意),也可由音字顺序编号形字结构代码的双列表精确记录(见:图3)。

3是字内信息层解示意图。          

image.png

3

通过图3可揭示每个字在文本总量控制模型 GTCM)和文本结构控制模型STCM)中的特定序位。在图3双列表中的一个个字例是位于GTCM 4进阶的新型字典里可层解的字。GTCM 1-3粗分进阶记录字内偏旁部首编号信息;STCM 1-n细分进阶记录字内笔画编号信息。

计算机系统通用的显示字库(Font)是依据计算机内码(如:GB2312,GBKGB13000.1汉字信息交换码)的国家标准及国际标准(即:Unicode国际统一的字符编码标准)排序的。由于每种字库均由点阵曲线加工的模拟数据记载(占据很大的存储空间),因此,受到存储空间和开发成本双重限制。本文介绍的字内信息处理的层解方法的应用,可大幅度缩小字库的存储空间,并可显著降低字库开发成本,而且还容易改进甚至再造或重构各种字体。 

2字间信息处理(音节串解)

4线串型结构串解示意图。

{BE59633D-7729-42BF-A9C5-EA0A38BB5E24}.png图4

通过图4可揭示每个音字在音节总量控制模型 GSCM)和音节结构控制模型 SSCM)中的特定序位。由于中文形字与汉语音字以及(音字)字组分属层面型结构线串型结构两个系列,因此,基于笔画表编号id的小字符集实际位图ip与基于音字表编号id的大字符集虚拟位图ip可通过字表与字组表的前后台构成具体的函数关系。

文本控制模型与音节控制模型在图4所示的双列表中是合二为一的。其中,音字一览表就是图3所示的位于GTCM 4进阶的新型字典里可层解音、形迭交的字例双列表,二、……、多(音字)字组一览表均为其两两、三三、、多多轮排的采集记录。图4蕴含:认知科学、逻辑学、数学、计算机科学等相关领域的科学原理和技术方法。

认知科学原理:理解,实质上是一种识别关系的能力。其特点有二,a、对关系的识别;b、对问题状况形成一种内部表示。各种问题状况涉及语义丰富领域(对关系的识别)/模式识别。各种问题状况内部表示涉及局部理解/知识的获取与表达。对(语言)关系建立的内部表示涉及全局理解/系统的知识表达。

例如:文本总量控制模型和音节总量控制模型就是Gene Culture这个具体的智能主体(语言)关系识别以后建立的内部表示(静态模型)。其中,包含:各种问题状况内部表示(动态模型)。这个模型及其实施例,是否被其他不了解它的具体智能主体发现认同,则有待进一步的实践或共享/重用之后做出新的评价或评估,不过,现在我们的实验和分析证明它具有可计算、可操作、可重用、可共享的特征(故得到了部分具体的智能主体发现认同,因此,进一步的实验和推广活动可进行下去)。字与(各级)字组(形式)的关系,在上述认知模型中以潜在(理想状态)和显在(受限状态)两种方式被记录在案。通过三化三注等具体限制方式,我们可针对目标用户群从中选取相应的义项字典字组用例,作为构建:数字化、标准化、高性能的各种标准化与个性化统一的实用语汇工具(含工具书)为汉语教学和中文信息处理提供计算机辅助(CA)。

逻辑学原理:在图4所述字与字组划分数字化模型中,不仅一、三、、多序号与123m序号之间同义并列,而且,一、三、、多字组(音字与音字串)序列与123m数字(代码)序列之间也同义并列。根据同义并列,对应转换公理/序位逻辑法则(通则),任何两个形式信息体系,一旦同义并列,即可对应转换。另提示:义项数量与字组长度之间的反变关系内涵与外延之间的反变关系同理。

数学原理:在图4所述数字化模型中,由各表序号(m)和各表中同义并列的数字与文字的行的序号(n)构成的矩阵序列,即:线性方程组(a m n x n = b m)常数项序列。

计算机科学原理:在图4所述字与字组划分数字化模型中,由各表序号(m)和各表中同义并列的行的序号(n)构成的矩阵序列,等价于计算机数据(仓)库的(一系列)表的序号(m)和各表中行的序号(n)构成的矩阵序列。在计算机关系数据库各表的前台直接呈现以及后台间接计算的字与(各级)字组(形式)与后台直接计算的数值(数字或代码)之间,不仅是同义并列的逻辑关系,而且,也是一一对应的函数关系。

在计算机标准化形式体系与(各个)自然人(实际选择或使用的)个性化内容体系之间可构成这样一种协同智能计算关系,即:人工与自然语言处理兼容的可计算、可操作、可重用、可共享的认知模型。

5是字与字组关系示意图。 

{102916E1-B6B3-411A-ABBD-4E8EF89F847E}.png

5

通过图可揭示音、形迭交的字与二、……、多(音字)字组的关系及其具体的组分机理。这是字为什么可充当汉语及中文的基本结构单位的原因。基于此,电脑芯片只要存储图3所示Z-ASCII笔画编号id和字的编号id与图4所示小字符集编号ip与大字符集编号ip就可再现字和各级字组,以便计算机系统和自然人用户有针对性地重用。

6是语法原理示意图。   

image.png

6

通过图可直观揭示字与各级字组尤其是二字组关系中所蕴涵的中文语法基本原理,即:释辞公式,语块方阵,语法探针或链。三合一可构成中文语法框架的基础,同时,也就是中文字间信息处理的原理。因为,多字组可由字与二字组衍生。中文标点符号信息处理也可在上述中文语法框架的基础(字与二字组的关系)上发展起来。二字关系及原理可指导两典一册的提炼或编撰;两典一册的完善,也可促进中文语法原理体系和中文字间信息处理方法体系的完善。

3 字外信息处理(义项分解)

7是两点论与三段论(两种基本的思维方式对比)示意图。

{9DF99125-E883-4502-99CA-F2AEAEF03184}.png7

通过图7可揭示汉语及中文基于字的两点论与英语及英文基于词的三段论两种基本思维方式的区别。两点论(图7)与二字关系(图6)可体现汉语及中文思维方式及辞语形式有机结合的基本特点。多义项的字由发散(生歧)到收敛(消歧)可通过二字组(无论是辞还是块或是链)这一基础性环节而在相应的概念群、辞语族及其关系链中实现。明确表示概念的辞,因为,免除了独字词的多义性,所以,更适合基于三段论的推理。              

8是字词关系示意图。       

{D57AC7E0-18C4-46A6-82B1-060C4894F3C0}.png

8

通过图8可揭示汉语及中文的字和英语及英文的词所体现的两种语义体系及语法架构的区别和联系。单独存储模型可记录字与词的区别;共同存储模型可记录字与词的联系。图8展示了笔者的(汉英/英汉)双语观及相应的协同存储模型,即:字在英语中可表现为词与词组,词在汉语中也可表现为字与字组。

此观点及模型可指导双语实践。在定性及定量分析的基础上可提炼出汉语及中文的形式化科学原理和两典一册(即:《义项字典》、《用例辞典》和《语块手册》)。

同时,也可相应地提炼出英语及英文的《义项词典》、《用例词组》和《短语手册》。进而,还可提炼出常用(汉英/英汉) 双语的数字化教学用/日常查询用/信息处理用的工具书。

9是链群示意图。 

{B2F8FC4C-F58A-4B21-BD2A-8838F5FDE249}.png

9

与实字联系的概念群和与虚字联系的关系链,可以把一个实字与一群概念,一族辞与一群概念,相联系;一个虚字或虚字组与关系链,一族块与一系列关系及一系列概念,相联系,可通过图9揭示。

实字蕴含或牵动的概念群(多义项迭交)可由含该实字的多个辞(实字组)表达的多个概念体现(多个辞迭交于该实字)。虚字蕴含或牵动的关系链可由含该虚字的多个块[(实虚/虚实)字组]表达的多个关系-概念/概念-关系体现(多个块迭交于该虚字)。

汉语及中文关注充当话题的辞语(如:英语及英文的主语);英语及英文关注充当谓语的动词(如:汉语及中文的说明)。由图9所示的短语结构与句子等价关系式NP + VP = S及其下方的一、二和12标号可见两者关注重心或焦点有不同语序。如果把NP + VP = S视为信息学基础研究的语义信息公式K + I = D 的特例,则英语及英文关注谓语(动词性短语)动词的未知语义信息胜于关注已知的(名词性短语)主语;汉语及中文关注话题(名词性短语)辞语的未知语义信息胜于关注已知的(动词性短语)说明。

4标准平台     10

{3EC54475-0BD3-4583-8C64-752ED1ACDF50}.png

10是原理示意图。

由图10可揭示字库的层面型结构编号(ip)是笔画编号(id)层解记录,字组库的线串型结构编号(ip)是字的编号(id)串解记录,在此标准平台上分别由Z-ASCII编号(id)与Z-Unicode编号(id)可确定(复合)字结构编号(ip)与字组结构编号(ip)的记录。其前后台数据结构特点和人机协同操作原理及方法,可由表格化、数字化、字组化三个基本步骤(简称:三化)具体表达。

标准平台的表格,有三种结构类型,即:单列表、双列表、多列表。简称:三表。

三表的前后台数据结构,兼顾自然人(人类智能)和计算机(人工智能)两方面的特点,强调人机之间合理分工、优势互补,高度协作、优化互动的智慧融通和融通智慧(智融和融智),是协同智能计算系统定制的数据结构。单列表是只有一种数据类型的电子表格。其特征在于:该列数据异义排列,序趣简美。它可以是任何一种数据类型,但只能是其中的一种。对双列表而言,它要么是左列,要么是右列。对多列表而言,它只能是其中的一列。双列表是具有两种数据类型的电子表格。其特征在于:两列数据同义并列,对应转换。也就是说,标准平台的双列表遵循信息基本定律安排左右两列数据的前后台数据类型。多列表是可有多种数据类型的电子表格。其特征在于:多列数据经纬阵列,唯一确定;多维选列,非非各平(即:非同步、非对称、各自平衡)三表分用(编号表对电脑/字组表对用户)合用(编号表与字组表以及相应的知识表均对开发人员)均可。

标准平台的数字,有三种集合类型,即:单一集合、分层集合、标志集合。简称:三集。笔者发现:如果说单一集合还原论的科学基础,杂多集合 整体论的现实基础,那么,标志集合分层集合则是(各门学科及其知识可做到)各就各位论的科学基础。笔者划分的单一集合、分层集合、标志集合,在数学上分别对应于集合与映射原理中所说的集合、集合的直积、商集。至于,日常生活中的集合,可称之为:杂多集合。这样划分的好处,可举例说明:仅就形式集合而论,笔画表属于单一集合,形字表属于分层集合,音字表属于标志集合,复合字表属于杂多集合。处理字与字组的标准平台,也是提炼两典一册的形式化通用平台。

11是提炼两典一册的形式化通用平台三化示意图。            

{A621C5B7-BEA2-4451-8BCC-1DE70A2E031A}.png

11 

通过图11可揭示提炼两典一册的通用平台的科学原理和操作界面。《义项字典》与《用例词典》以及《语块手册》的素材,均可取自图14所示的m个双列表分层集合。在此,形式化是通过三化的步骤而落实的。其中,字与二字组的关系可作为语言文字形式信息提取与语言文字内容信息提取或知识表达提供有效的格式化操作示例。

12是提炼两典一册 的形式化通用平台三注示意图。          

{C691B747-C221-42F6-BF73-F387999FDFE0}.png

 12 

通过图12 可揭示字组标注的三种类型,即:语言文字信息标注、通用常识信息标注、专用知识信息标注。简称:三注。如:可通过笔画表、形字表、音字表、复合字表而实现对字的形式信息标注;可通过实字表和虚字表而实现对字的内容信息标注。 

5 两典一册

由哲学到数学再到计算机科学的探索进程中逻辑学的发展涉及了概念化和形式化两个重要方向。因自然人与计算机各有所长,故融智学采取了人机互助互补的观点、策略和方法。两典一册的设计直接应用了融智学的主张和工程融智学的具体做法。

首先,利用自然语言处理的文本与音节两组模型,把汉语及中文的基础结构形式化。

13是基础结构与两组模型示意图。   

{3853AFE0-E4CF-451D-BCDE-3A9ED7B02E49}.png

13

Z-ASCII 笔画(表)与Z-Unicode复合字(表)是汉语及中文形式化的基础。因为,(形)字的计算,基于笔画表(Z-ASCII包容且兼容ASCII),(音)字及(音)字组的计算,基于(音形迭交的复合)字表(Z-Unicode包容且兼容Unicode)。字的形式化是其中承上(层面型结构)启下(线串型结构)的关键步骤。G/STCMG/SSCM是适合人/机的模型。

《义项字典》解释(形/音)字的义项,分实字虚字两种类型。其中(形/音)字的义项层解通过STCMSSCM两表区分形字和音字而实现。(形)字的义项层解通过(形)字表,标注笔画和部首而实现。(音)字的义项层解通过(音)字表,标注多音字及其用法而实现。(音)字的义项串解通过字组表,切分字组而实现。实字的义项分解通过辞表,切分实字而实现。虚字的义项分解通过链表,切分虚字而实现。(形//意义)综合迭交的字由各表分解

14是字的综合迭交示意图。                    

{1CA66B79-61A0-4DF0-B869-4F741A0C70C4}.png

14

通过图14可揭示语言学主要分支学科(如:语音学、文字学、语义学、语法学、语用学、字典学)的一组微观研究对象(如:音字、形字,实字、虚字,用字、解字)。汉语及中文字内、字间、字外信息处理,以字为焦点,涉及字的综合迭交。其中,形字层解可获得:字内(小字符集笔画顺序编号和大字符集偏旁部首顺序编号)信息,此处不计形字音字迭交信息;音串解可获得:字间[大字符集(音字与形字迭交复合的字的在字表中的顺序编号和在字组中的结构编号]信息,此处不计普通话、方言、古字音迭交信息;实字义项/概念群分解可获得:字外(辞与概念的顺序编号)信息,此处暂不计实字与虚字以及虚字与关系链迭交信息。仅就形式而论,音形迭交的音字(如:形声字的声符也就是1325个音字)比音形分离的拼音与形字更具汉语的特性。用字或解字涉及对字意的应用或解释。                      

接着,利用字与二字组的关系,融形式化概念化为一体,可通过形式化保证计算机自动识别和精确重用,同时,可通过概念化满足自然人正确识别和准确理解乃至恰当表达(有针对性地重用)。如:视字为对象语言,视二字组为元语言,在网络与计算机辅助环境或条件下,由一字精解字字精解                               15

15二字关系      {260C27C4-15BB-4BD4-AAD3-2C0BCABC5622}.png    

两典一册中具有枢纽地位的二字关系。释辞公式反映实字与实字的线性组合;语块方阵反映实字与虚字,虚字与实字的阵列组合;探针或链反映虚字及虚字组具有揭示语法关系的功用。虚字或虚字组(作为语法关系链,省略时人为地插入可像探针那样具有检测并凸显其语法特点的功用)与实字或实字组/辞结合,组成(语)块(加逗号则为读,加句号等则为句)。探针或链,一旦归纳整理成册就可系统地展示汉语及中文语法的全貌。因此,可以说,实字是语意学的字类,虚字是语法学的字类,用字是语用学的字类,解字是字典学的字类。作为核心字的解字的(类/范畴/基本概念)定义或解释,可统帅二字组——包括:二实字构成的释辞族;二虚字构成的链;一实字和一虚字或者一虚字和一实字构成的块。实字、虚字,用字、解字,属内容方面,音字拼音标注和形字笔画及部首标识属形式方面。

进而,逐步完成字与(各级)字组(关系)的详解(以备网络与计算机辅助教学、科研、生产、日常应用、自动处理或由针对性地重用)。

《用例辞典》解释(实字)字组/辞,分用字解字两种类型。其中,释辞族,由两种情况,即:由前字充当解字的相关概念群(如:字音、字形、字意)与由后字充当解字的下位概念群(如:音字、形字、实字、虚字,用字、解字)。在此,解字就是核心字。

《语块手册》解释(虚字)字组/链,分近距远程两种类型。其中,虚字与虚字直接组合,为近距接续(如:当且仅当);虚字与虚字间接组合,为远距接续(如:不但而且)。       16

16是中文信息概要示意图。    

{E22B643A-3524-44F0-9127-448703685622}.png

汉语及中文字内、字间、字外信息,表示:笔画之间、音节之间、释辞之间的关系。如果说自然人识别、理解、表达的则是部首之间、音节/字之间、辞之间(概念化的)关系;那么,就可以说计算机识别和处理的实际上是笔画之间、音节/字之间、字组之间(形式化的)关系。因此,可用(作为元语言的)二字组(释辞)解释(作为对象语言的)字。也就是说,两典一册所记录的就是这一系列的关系/信息。

普通的字典、辞典、语法手册,是供自然人查询用的;经过计算语言的电子字典、辞典、语法规则库,主要是供计算机(如:中文信息处理和机器翻译)查询用的。计算语言学借助程序语言来处理自然语言。国外的形式语法及语义/意和自然语言的形式化方法,对汉语及中文信息处理(如:各种各样的加工——标注),虽然取得了一系列成果,但是却遭遇了 分词的困难——这是汉语及中文信息处理的一个根本性的技术瓶颈。 

实践证明这种跟着西方人思路转的研究是无法实现赶超国际水平的目标的(徐通锵)。英语形式化方法(何况英语自身的形式化问题还没有解决)突破不了中文信息处理的瓶颈。如:中文词的切分标注就面临消歧难题(俞士汶、孙茂松、黄河燕等)。

必须指出:对人机两用的《义项字典》、《用例辞典》、《语块手册》不存在分词问题。因为已被(两典一册清楚表示的)字、辞、链、块所取代了。如:(形)字的计算,基于笔画表(Z-ASCII),(音)字及(音)字组的计算,基于(音形迭交的复合)字表(Z-Unicode)。辞的计算,基于实字表;链的计算,基于虚字表。块的计算,基于字表、辞表、链表D = K + I包容且兼容S = NP + VP)。

最为关键的是汉语中没有词(赵元任),字、辞、链、块是人机两方面都可识别和处理的。汉语及中文的形式化的字本位理论和概念化的自动查询工具(标准平台)的功用,不仅符合汉语及中文的思维及表达习惯,而且,也具有与英语及英文的思维及表达习惯兼容的通道。汉语及中文的字、辞、链、块可取代(西方人心目中的中心主题)而字是中国人心目中的中心主题(赵元任),因此,摆脱了流行思路的束缚,以字本位理论为基础研究中文信息处理的问题,探索形式化新路。这抓住了汉语特点的关键(徐通锵)。

6自然语言处理与理解的基础

基于Z-ASCIIG/STCM和基于Z-UnicodeG/SSCM是自然语言处理与理解的基础。其中,STCMSSCM是适应计算机处理的后台模型;GTCMGSCM(简称:两表)是适应自然人理解的前台模型。前后台之间是等价的。

两表及其作用(三化三注)概要简述。 

18

18GTCM(粗分模型)示意图。

{08D5C89A-F530-4089-BF4E-052FA2CB7A2E}.png

通过图18可揭示汉语及中文一览总表的13个分表所表达的13个类。其中,各分表均采用双列表,即:左列,前台是十进制数,后台是二进制数;右列,前台是自然语言(汉语及中文)符号,后台是二进制数。数据类型分别是整型/自动编号(id)、逻辑型、字符串、超级连接/序位编号(ip)。左、右列,前、后台,均同义并列。由此建立三化汉语及中文形式体系。本文重点探讨字、辞、块3个分表,其它10个分表仅作简要介绍。

对汉语及中文而言,GTCM01234五个分表,所记录的字内信息计算、操作、重用、共享符号总量有限。

GTCM4-6三个分表与GSCM1-m个分表,所记录的字间信息在总量上完全相等,不同的是前者GTCM需人助机识别而后者GSCM计算机可自动识别,即:易计算、操作、重用、共享且各个分表的符号总量也有限。

GTCM7-12六个分表,所记录的字外信息的粗分和细分均受到具体目标用户日常处理能力的限制,其总量也限制(由于这部分不是本文的探讨范围,故省略)。

这个自然段的术语,仅供有兴趣学习或参与协同智能计算系统设计的读者参考——其他读者可不读此自然段。GTCM0分表被命名为子全域/单一集合,其中的元素数目十分有限,是构成GTCM1-12个分表的所有被命名为超子域的元组的基因文本或文本基因——因其特性类似生物基因(ATGC)而得名。GTCM0-12个分表被命名为13个进阶。基因文本元素是子全域与超子域的连接纽带。超子域的复杂程度,在微观上取决于元素的分布状态(一旦跨进阶或跨模型就会出现迭交情况——如:GTCM的第4个分表和GSCM的第1个分表),可解析,具体的计算、统计、分析,视具体的子全域而定;在宏观上视具体的进阶(如:细分形式体系的各个一览表)而定。超子域可解析程度视组配结构的复杂程度或迭交情况而定。

单音节与混音节的区别和联系

同样位于GTCM4分表(图18)的(汉语)(音)字与(英语)(单)词,却有显著的区别。一方面,就文字结构(形式)而言,与(音)字发生迭交的(汉文)(形)字,是:基于笔画的层面型结构;(英文)词(形),是:基于字母的线串型结构。另一方面,就语音结构(形式)而言,与(形)字发生迭交的(汉语)(音)字,是:单音节;(英语)(单)词,是:混音节(含:单音节、双音节、多音节)。

字、辞、块与词、词组、短语

同样位于GTCM456分表(图18)的(汉语)字、辞、块与(英语)词、词组、短语之间的微妙关系,仅从辞、块词组、短语这种粗分形式是难以发现的。

探讨字、辞、块,即:GTCM456三个分表,是图18 的焦点。这里(图19将对辞、块做进一步细分,以便进行计算机自动化处理)对汉语与英语的比较,强调:单音节的字与混音节的词的区别。

19

19GSCM(细分模型)示意图。

{D033BBBD-A7CE-406E-A987-E44CD170819C}.png

通过图13可揭示汉语及中文一览总表的1-m个分表所表达的1-m个类。其中,各分表均采用双列表。这里的汉英比较仅限于音节形式。汉语语汇的细分就是以字为线串型结构的起点或节点作为度量(各级)字组的基本尺度(基本结构形式单位)。两表(图18-19)结合使用,可突出形字与音字的迭交关系。GSCM突出音字。请注意:这是仅仅就汉语而论,不涉及汉语拼音。如果说混音节与多音节在GTCM中仅显现出称谓不同,那么,在GSCM中就表现出了实质差异。其区别在于:是否包含单音节?图14可使答案一目了然。

(汉)字与(英)词比较

由图19可见(汉语)(音)字与(英语)(单)词在GSCM中的地位是不同的,这两种语言各自的基本结构(形式)单位的区别是显而易见的(形态上也有不同)。第一,静态区分:字仅仅限于GSCM的第1个分表,词则可位于GSCM1-m多个分表。第二,动态区分:字占据的节点(含:起点)是单音节,词占据的节段(含:节点)是混音节,两者都属于线串型结构

GSCM揭开微妙关系的神秘面纱

前面提到的(汉语)字、辞、块与(英语)词、词组、短语的微妙关系,在GSCM和图19中得以展现——被揭开了微妙关系的神秘面纱。具体要点如下:

首先,就语言结构(形式)而论,字与词之间的区别是最根本的。因为,同样位于GSCM2-m多个分表的(汉语)字组(辞或块)与(英语)词组或短语之间的区别,皆由作为其基本结构单位的字与词的区别而派生——各自的组配法则也有相应的区别。

其次,(英)词的混音节(含单音节、双音节、多音节)与(英)词组或短语的多音节(不含单音节)的(形式)区别,也显而易见。除此之外,两者的区别还有:前者是构成后者的基本结构单位,而反之则不能成立;构成词的音节之间无空格,而构成词组或短语的词之间有空格——计算语言学界认为这是英语的一个优点,增加了英文信息处理的识别标识。

最后,如果仅仅限于GSCM来看,那么,很显然,构成(汉语)字与字组的音节(音字)之间无空格。计算语言学界认为这是汉语的一个弱点,增加了中文信息处理的困难。但如果考虑GTCM可提供的字内信息,特别是考虑:字内和字间信息的综合利用,那么,中文信息处理应当有自己的优点(这在后面将会有进一步的分析)。

区分字与词的工具

正如GTCMGSCM可帮助我们区分形字与音字一样,GSCM和图14也可帮助我们区分:(音)字与(英)词以及在音节关系上认识(英)词与(音)字、辞、块的关系和(英)词组或短语与(汉)辞、块的关系。

GSCM奠定理论分析和实践处理的基础

GSCM展示(作为汉语结构的)(音)字与(各级)字组的(形式)特点,为进一步提炼(汉语)(音)字的形式化定义以及(各级)字组数字化分类(或划分)奠定了基础,即:表格化、数字化——意味着:可计算(可统计、可分析)、易操作。

字与字组的关系——兼谈字与词的区分

字与(各级)字组的关系(基础是:字与二字组的关系),涉及:形式与内容两方面。

三化

从形式方面看,字与(各级)字组的(形式)关系,可借助两表实现:字的定义形式化,字组划分数字化,义项呈现字组化(即:三化)。这是实现:计算机辅助(CA)处理汉语形式的一条捷径。

三注

从内容方面看,字与(各级)字组的(内容)关系,可借助两表进行:语言文字信息标注,通用常识信息标注,专用知识信息标注(即:三注)。这是实现:计算机辅助(CA)处理汉语内容的一条捷径。

奠定中文信息处理的系统工程基础

基于两表三化三注,从形式与内容两方面对字与(各级)字组的关系给出了静态的系统描述(相当于:在现实需要理想目标之间架设的桥梁),从而,为进一步灵活多样的动态分析和计算机辅助处理(有针对性地重用标准化认知模型),奠定了中文信息处理的系统工程基础。

发现与记录

实际应用中,形式与内容,通常总是联系在一起的。凡经过形式化系统工程处理的音节或文本序列(对汉语语汇而言,就是:充分利用GTCM456三个分表和GSCM1-m多个分表提供的音字序列的形式信息以及GTCM 01234五个分表提供的形字序列的形式信息,优化中文信息处理过程的记录),在协同智能计算系统中,无论是其形式信息还是其内容信息,都将一目了然(因为经过两表三化三注加工之后的汉语及中文语汇知识信息数据处理可且易计算、操作、重用、共享)。用户的个性化重用,不过是该系统的标准化重用的某些具体的组合变换(分与合——有针对性地重构或重组)而已。通常有一类例外:某个或某些特殊的用户发现了该系统未曾分析和处理过的具体组合。此时,系统将自动记录该用户或该终端的原始输入信息,并与本系统长期协作的知识工程师、领域专家以及知识产权专家一道协同对之进行复查和审核。

区分字与词的必要性

汉语的字与字组的关系(涉及接续问题)

区分形字与音字,是汉语形式化的一个基本问题。涉及:如何认知汉语自身发展路径与如何继承汉语研究传统的问题。对汉语辞、块的进一步认识和研究,主要建立在对音字的认识和研究的基础之上。如:汉语固有的基于字(汉语字本位理论突出:字是汉语的基本结构单位)的切辞块(汉语字本位理论突出:基于实字的辞和在字或辞的基础之上附加虚字及虚字组的块)与断句读(由古代汉语延续下来,汉语字本位理论突出了:读的语气停顿和句的语义停顿)的困难如何解决(汉语教学和中文信息处理都关注)。

汉语与英语的结合(涉及国际接轨问题)

区分音字与英词,是汉语形式化的另一个基本问题。涉及:如何认知汉语融合发展路径与如何借鉴外语研究传统的问题。对英语词组或短语的进一步认识和研究,主要建立在对词的认识和研究的基础之上。自从汉语引入(外语的)词(word)概念之后,分词与标注的困难始终与中文信息处理为伴。对汉语引入(外语的)词组或短语与汉语本身的辞或块的关系的进一步认识和研究,主要建立在对字与词的语言交融现状的认识和研究的基础之上。如:引入词概念,在切辞块与断句读(对自然人)之外,又增加了分词与标注的困难(对计算机)。

7 典型示例——解析字与字组的关系的实例1-2

一字精解字字精解的步骤1-3,把字视为对象语言,把二字组视为元语言。

实例1 ——中文形式信息处理(从形式方面,解析字与字组的关系

示例1:如何区分语言的和文字的 

步骤1:字内信息层解(从复合字中分离出形字与音字的分离手术是难点)

对基于笔画的层面型结构(形字)的层解是基于GTCM01234进阶五个分表的类及例而实现的。在计算机数据库和数据仓库中,表现为:由五组数字(id形字(逐层分解的字符)数据同义并列的五个(见图20的一览总表)。

{42E44FC2-5D42-4893-89EB-7B9B6CE5AF95}.png

20GTCM五分表示意图。

由图20结合GTCM可说明:GTCM01234进阶层式与计算机FONTS(字库)以及GBK Unicode的兼容关系。基于中文标准信息交换码的思路,实现形字的层面型结构化改造——使字内信息成为:可计算、可重用形式信息。                  20

由于在GTCM层面型结构具有:可分解性以及被分解后的各级部件 具有:可计算性,因此,从形字中提取必不可少的字内信息相当方便。由于形字音字之间的迭交关系,所以,字内信息字间信息两方面的形式信息提取,都是中文信息处理必须的。

形字与音字迭交原理及实例。音字切分为节点形字拆分为部件。由层面型结构顶层可透视:音形迭交的情形。如:图1这个,就正好位于线串型结构音字层面型结构形字交汇处

步骤2:字间信息串解

线串型结构而论,图1中虽然文本本义是两个可以直接接续字组,而则是三个离散,但是,它们都是字字落在线串型结构节点上的。其它字的字间信息的解析与此同理。就层面型结构而论,图1这个字内信息,涉及一个(字中字)和一个(笔画字)。其它字的字内信息的解析与此同理。可见:每一个都有语言文字双重特性。这就是汉语音字形字相互迭交的性质。

形字是从文字学角度得出的概念。字形是对的研究。其特点是:从平面方块形结构入手。着重点在于分析视觉信息,表现为:基于笔画部件偏旁部首分析。

字音是从语音学角度得出的概念。字音是对的研究。其特点是:从立体单音节结构入手。着重点在于分析听觉信息,表现为:基于音素音节语音语调分析。字音的形态,可以拼音化。表现出:汉语总与拼音这根拐杖联系在一起的特点。

 字音形字是从语言学角度得出的概念。音字是从的方面对的研究。其特点是:从线串型结构入手。着重点在于分析字间信息,表现为:对语汇有关的语音语法语义乃至字间语用信息的关注。形字是从的方面对的研究。其特点是:从层面型结构入手。着重点在于分析字内信息,表现为:对语汇有关的文字语义乃至字内语用信息的关注。由于字间信息字内信息都对 义项具有限制作用,所以,从释义字组的选取范围考虑,必须同时兼顾字音形字两方面的语言信息。

1左边的节点切分图,展示了:音字外部的连串组配机理。音字特指:基于GSCM1进阶层式线串型结构。与狭义的形字之间是迭交关系。音形字中的声符可视为音字的特例或原始类型。

1右边的各层透视图,展示了:形字内部的分层组配机理。狭义的形字特指:迭交GTCM4进阶层式层面型结构。广义的形字特指:基于GTCM01234进阶层式层面型结构

示例2:如何解析文本义这个音字串?

首先,以音字为单位,把线串型结构自动分解为离散音字串,即:。接着,基于一字表自动识别音字串中的实字虚字以及虚实两可的字。本例断定全为实字。第三,基于二字表自动识别音字串中的实字之间两两组合是否符合接续要求。本例断定文本本义是符合接续要求的二字结构。第四,根据基本组字公式分析字间信息。本例断定:释辞1文本=+=用字+解字。释辞2本义=+=用字+解字。第五,基于三字表自动识别音字串中的实字之间三三组合是否符合接续要求。本例断定文本义不符合接续要求,因此,不构成三字结构。这是一字表、二字表、三字表分别位于GSCM123进阶层式。同理,可分析分析其它线串型结构                                             {0F06EA3F-D508-4AB2-BA63-8EB5EB841B3D}.png

21

21是一语双文。

由图21可见:汉语具有(音)字与(由音字组配的拼字)字组(由字母组配的拼音)音节和音节串两种记音符号。由此可见:汉语音字与汉语拼音(即:字音的一种表现形式)并存的所谓一语双文现象。图1与图21结合可帮助我们更好地理解:汉语语言学中与形字之间迭交音字(在图1中已通过字的拆分与叠合的方式直观展现)和汉语语音学的字音之间的区别与联系,即:在图21中上方汉语拼字与下方汉语拼音之间的同义并列,对应转换关系。

如果没有图1(形)字层分的直观展现,及图21 (音)字层分的直观展现——一语双文,那么,线串型结构层面型结构音字形字之间如何迭交通常是不容易理解的。

实例1和图18119从汉语自身结构分析的角度展示层解限制层面型结构释义串解限制线串型结构释义的特征。从一个侧面以窥斑知豹的方式说明了字与字组的关系。以下实例2将借助两表从英汉双语对比的角度,从另一个侧面说明字与字组的关系

步骤3:义项信息分解(见:典型分析1-5

实例2 ——中文内容信息处理(从内容方面,解析字与字组的关系

典型分析1这个字,如果单独看,那么,它可有本义、主义、道义、…”多个义项可供选择。但是,如果前面增加了这个字(节点),那么,其义项选择的可能性一下子也就减小了。因为,本义作为释义字组,明确地排除了选择其它义项的可能性。再延长字组的长度,还可有易经本义、圣经本义、他的本义、你的本义、…”多个进一步的义项(注:不过这里的义项已是对本义这个字组而言了)可供选择。一旦前面增加了你的这个字组,其义项选择的可能性立即也就减小了。因为,你的本义作为释义字组排除了其它进一步选择的可能性。

典型分析2仅就形式方面而论,这个字,如单独看,可有多个义项可供选择。如何才能以最简洁的方式消除这里的歧义(即:二歧性)呢?根据基本组字公式,只须在其前面增加一个用字即可立即明确地消除这个解字二歧性——如果要求在两个用字之间二选一。这里,音字形字就是释辞用字的功用由此可见一斑。这样,我们一旦明确地说:汉语字本位理论所说的音字而不是形字,那么,人们就可以立即断定:汉语字本位理论所说的属于语言学的研究范围。因为只有形字才属于文字学的研究范围。

典型分析3典型分析2的研究再向前推进一步,在释辞中扩大这个字的义项选择范围,即: 扩大到形字、音字、实字、虚字、用字      22

22形、音、实、虚、用关系示意图。{695AF013-42EF-41F6-B377-B6BA7D53F4B2}.png

无论是与各国语言相比较,还是与语言学的各种理论相比较,都有证据说明:在形字、音字、实字、虚字、用字中,汉语的音字是独一无二的。如此显著的特征,为什么会被学界(长期地)视而不见?难道音字存在的现象不是事实吗?还是其中另有原因?否则怎么会长期存在一叶障目的情况呢?

证据:(从理论上讲)造成这种一叶障目的主要原因可能是:古代汉语研究缺乏科学的语音学指导,而现代汉语研究又因为引入科学的语音学的同时实行了汉语拼音方案(之后又产生了所谓一语双文的情况——这是相应的实情)。(从实际上看)音字存在的现象,在汉语中是一个事实。如:诗经、楚辞、汉赋、乐府、唐诗、宋词、元曲等经典的存在,都说明:在古代汉语中音字的特点,事实上是被认可的。在拼音体系还没有引入中国之前,不仅古代汉语就是现代汉语形成初期的白话文的流传过程中,汉语音字的特点,在事实上也是被认可的。音韵、训诂之学也记载并保留了事实认可

在拼音体系引入中国之后,加速了白话文和现代汉语的普及进程,特别是汉语拼音体系(如:汉语拼音方案推行的结果)建立之后,随着普通话的推广,汉语出现了一语双文。于是,汉语在字形与字音(即:拼音)之间分工过程中,人们有意或无意地选择:用字形与拼音之间容易区分的明确形式——字音取代了字形与拼音之间难以区分的不明确形式——音字。这样,在汉语一语双文普及进程中与其说被取代不如说被掩盖的正是:(与形字同形的)音字

典型分析4典型分析1的研究也向前推进一步,在释辞中扩大这个字的义项选择范围。即:调整解字用字关系。

23义项释义字组的(直呈)关系示意图。                  23

{59A7A232-5793-4220-AD1D-E8A436D10E43}.png

由图23可见:这个解字的义项,是通过具体的用例(即:等价于包含解字释义字组)直接呈现的。这说明:字的义项释义字组之间的直接关系,可通过线性组配限制释义的直接呈现方法(即:左右限制法),围绕核心字展开。根据基本组字公式本义、主义、道义、…”多个释辞直接呈现的义项都是由本、主、道、…”用字的限制功能而发挥消歧作用的。其它可类推的部分省略。

典型分析5典型分析1与典型分析4的研究再向前推进一步,把释辞直接呈现扩大到间接呈现

如前所述,义项呈现字组化,包括:直接呈现与间接呈现或信息标注(即:三注)。细分的(同义并列的双语)义项说明,相当于:细分的(同义并列的双语)释义字组以及常识知识领域标注字组的说明。97c914cd6e1328d0ec6a98160deb7aef_6RbSY6QjrpwnaZVQF6Br-GlAi9H15XB6MJcHqW9lRLDdKvk.png

24字的义项释义字组以及标注字组(直接和间接呈现)的关系示意图。

由图24可见:通过汉语直接呈现的这个字的义项的用例不仅可与英语的对应词语之间实现双语的同义并列(由此也发现汉语与英语之间的显著区别——对译的语言单位并不一致),而且,还可通过汉语的释义字组、句子、…” 的方式进行多角度或多领域地间接呈现(即:三注,这里仅限于释义字组)。三注,是通过多个领域的标注信息立体选配,达到进一步限制释义范围的间接呈现法(即:行列限制法),围绕(领域)参照系展开。

8形式化探新简议

形式化通常是就形式语言、程序语言、人工语言而言。美国标准信息交换码ASCII)是这种形式化的基础。与英文信息处理比较而论,中文信息处理至今没有自己独立的基础。统一编码Unicode)虽然提供了国际标准,但是,仍不能改变汉语与英语在此基础方面的根本差距。有一个办法可消除这个差距。这就是建立既能与ASCIIUnicode兼容,又能与ASCII平级的终极标准信息交换码Z-ASCIIZ-Unicode)。本文的字内信息处理,有利于这个问题的解决。

字内信息GTCM0-4分表处理。如果这个工作得到相应的资金支持,我们就可以早日开发出基于Z-ASCIIZ-Unicode的中文输出输入系统(Z-BIOS)和小字符集中文字库(Z-FONTS)。Z-BIOS与现有的英语BIOS兼容且平级从而可用汉语直接控制。Z-FONTS与现有的大字符集汉语FONTS兼容且与小字符集的拼音字库平级从而可用汉语直接控制。如果这个工作得到普及,就可开发出能在底层用汉语直接表达的软件开发平台。

在此基础上字间信息GTCM4-6分表构成汉语字组粗分模型或由GSCM123m分表构成汉语字组细分模型处理。

完成上述两步,才可说中文信息处理真正上了一个大台阶。因语言处理与知识处理相辅相成,所以,必须继续前进,完成字外信息GTCM5-12分表处理的过程。

完成上述三步,才可说中文信息处理真正融入了自然语言处理的大家族。

如果知识处理不能上一个大台阶,那么,语言处理也难以跟上国际科技前沿的发展。

由于现代知识信息数据的创新部分大部分是以英语公开的,所以,除了解决汉语字与字、字与字组、字组与字组的语法接续问题外,还必须关注汉语与英语的国际接轨问题。

因此,汉语的字与英语的词之间的中介—— 释义字组释义词组(均由GTCM5-6分表进行形式化处理),也就成了本文关心的一个重要部分。

用汉语思考与表达用英语思考与表达能否地位平等?关键在于对象、概念、符号、关系释义字组释义词组之间,能否成体系地掌握到位?

就字与字组的关系而论,如果从语言事实中发现的迭交原理、等价原理、释辞公式和语块方阵能为完成上述三步提供可计算、可操作、可重用、可共享的路径,那么,不仅汉语字本位理论体系可完善,而且,其优越性也将举世公认。

那时,基于汉语且兼容英语的高性能计算机以及基于Z-SCIIZ-FONTS的中文操作系统(Z-OS)也才有可能出现。Z-OS与英文操作系统兼容且平级从而用中文直接解释的程序语言控制,区别于基于英文操作系统的汉化或翻译的中文操作系统。 

在形式上, 本文的模型建立在数字计算机及其关系数据库和数据仓库的基础上;在内容上,是基于相对完全归纳语言事实(如:现代汉语词典)集合。经过三化处理的模型标准化与个性化结合理想化认知模型,是当代逻辑学、数学、计算机科学、认知科学乃至人工智能技术与汉语字本位理论的有益结合。

结语

以上主要介绍了汉语及中文信息处理的形式化体系,涉及:字与字组的关系数据原理。问题的提出源于理论融智学对语义三棱(模型)的解析和工程融智学对意义=+(字符串公式)的解析。问题的解决得益于字本位(汉语的基本结构单位)的启示和字的迭交现象的形式化虚拟描述。分析过程涉及字内、字间、字外信息处理三个步骤。由此提炼出字本位与中文信息处理的全面形式化方法,其基础是:字的迭交原理。

基于笔画的形字,字字可重构/再造(根据笔画表元素顺序编号id所组成的各形字的笔画排序结构编号ip可随时随地调用/重用形字以便进行有针对性地各种组合变换);基于音节的音字,字字可重用/再造(根据音字表元素顺序编号id所组成的各音字/音节字组的组成排序结构编号ip可随时随地调用/重用音字以便进行有针对性地各种组合变换)。借助文本结构控制模型(STCM音节结构控制模型(SSCM可实施形字音字分体手术。这样,既可在实践中有针对性地调用/重用形字音字,有可在理论上有力地论证汉语字本位理论的基本原理字与字组的关系(含:字与字组的科学定义——不仅可定义各自唯一的,而且还可在相对完全归纳的范围之内枚举各自的)。

综上所述,本文不仅直接证明了三化(汉语及中文的形式化)的必要性、重要性和可行性,而且,还间接概述了三注(知识处理)的必要性、重要性和可行性乃至紧迫性。读者可以经验主义(Empiricism)、理性主义(Rationalism)和怀疑主义(Skepticism)三种观点,检验本文的方法及结果的科学性(可重复性或可计算性),质疑任何不可验证之处。

值得进一步研究和思考的几个问题。如:现有的字典和词典没有指出这样的问题,即:字字有(语义)分歧,处处有(语义)陷阱。这似乎只有在本文所述标准平台及其相对完全归纳的两典一册完善且普及的网络与计算机辅助的环境或条件下,才可能较好地解决或妥善处理。又如:本研究发现:汉语及中文的语法与英语及英文的语法有一个很大的不同,即:前者以字法和章法这两极的系统发展为特点;后者以构词法、词法和句法这三级的系统发展为特点。再如:笔者发现:古代汉语有相当发达的字法和章法,而现代汉语似乎没领悟中文语法的这个特点。

参考文献

李谷城等译:现代语言学(乔姆斯基革命的结果)[M]外语教学与研究出版社1-3201983

  立:美国理论语言学研究[M]北京语言学院出版社1-2401993

喻云根:英汉对比语言学[M]北京工业大学出版社69-991994   

  锋:汉语研究在海外[M]123-188页,北京语言学院出版社1995

张志公:汉语简论[A]汉语辞章学论集[C]人民教育出版社1996

刘叔新:词语强制搭配的语义关系类别及其性质[A]南开大学语言学论辑[C]北京语言学院出版社1996

徐通锵:语言论--语义型语言的结构原理和研究方法[M]东北师范大学出版社1-4421997

黄增阳:HNC(概念层次网络)理论——计算机理解自然语言的新思路[M]清华大学出版社1998

邹晓辉:融智学原创文集[C]  2000-2005第一版,2018年第二版,2025第三版easyChair

北京大学计算语言学研究所:计算语言学文集(第4集)[C] 1-2542000

徐通锵:基础语言学教程[M],北京大学出版社19-36页,178-2372001

  川:汉语语法的意合网络[M]1-277页,商务印书馆,2001

施伯乐等译:数据库处理——基础、设计与实现[M]电子工业出版社170-246334-4892001

康博创作室:SQL Server 2000 数据仓库设计和使用指南[M]清华大学出版社2001

冯志伟:发挥汉语拼音在信息时代的作用[A] 语文现代化论文集[C]商务印书馆41-442002

黄河燕主编:《机器翻译研究进展[C]电子工业出版社1-2822002

苏培成等:语文现代化论文集[C]商务印书馆1-3642002

张学文:组成论[M]中国科学技术大学出版社44-56页,246-2522003 



https://blog.sciencenet.cn/blog-94143-1520098.html

上一篇:[转载]2025年12月21日对之前的融智学术语(智慧,智力,智能)的回顾与总结(立此存照)
下一篇:与其说是字本位,不如说是言本位
收藏 IP: 116.31.52.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-1-28 01:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部