||
改变科学研究思路的十个知识创新点 ——探索汉语理论建设及中文信息处理的新路
邹晓辉
2007于讲授并撰写北大,发表于中国科技论文在线,2021于再次审阅于横琴
摘要 本文介绍《字本位与中文信息处理的基础》1 贡献的十个知识创新点,即:汉语及中文的基本原理,信息和智的本质定义及基本分类,认知心理学双语协同存储原理,形式理论的受限原理,序位逻辑原理及工具,语言和知识的通用计算方法和量具,生产式教学及协同智能训练体系,(产、学、研、教、用、算)一体化(知识信息数据)管理。其重要性不仅在于指出自然语言与机器语言的互换路径,除直接形式化之外还有间接形式化道路,对汉语形式理论建设和中文信息处理及基于中文的知识处理而言,后者更便捷而高效,而且还在于改变科学研究思路的十个知识创新点具有的整体功用。
关键词 汉语形式理论、中文信息处理、基于中文的知识处理、融智学的十个知识创新点
1.引言
在过去几年,基于语言学和信息学的融智学(如:字本位与中文信息处理的基础)研究取得了长足进展1a,1、义项语汇典例(SVDE)的总量控制模型 ( CLSW-5论文集)[1],重构“概念分类体系”的新思路与新方法( CLSW-6论文集) [2],优化“语义信息处理”的新方法与实施例( CLSW-6论文集) [3],字本位与中文信息处理[4];2、理性的标准的协同智能模型(CAAI-11录用)[5],融智学的观点和方法(CAAI-11录用)[6],信息学基础研究(信息科学交叉研究学术研讨会2005北京)[7]和Intelligence Means Information Processing(智意味着信息处理)Zou XiaoHui (VII International Ontology Congress: Real or Virtual: from Plato’s Cave to Internet 2006,10,Spain) [8] 。 然而也还有很多重要的问题没有得到满意的解决,如:3、不同的信息观的分歧依然较大,信息本质的理论探讨仍在进行[9],汉语理论的本位问题仍未彻底解决[10],中文信息处理现有的三大流派[11]各自预期都是至少还需要几代人的努力才可望有所突破);4、国际范围内语言与知识的计量问题仍然存在;5、人类智力以及人工智能所涉及的智的概念的本质似乎仍未搞清()AI2000 - 2007]。 有鉴于此,本文系统地介绍了《字本位与中文信息处理的基础》提出的十个知识创新点,希望有助于改变汉语理论及中文信息处理的研究思路。它们体现的协同智能的观点、原理和方法至少可在“强人工智能”与“弱人工智能”之间形成必要张力。人脑与电脑的双脑结合及其相应的一整套“软件和数据库”系统实质上是(k + 1)双文双语协同智能计算系统2b 。
2.正文
领域
字本位与中文信息处理,涉及语言学与信息学的一系列难题。这些问题中,最基础的是可否判断(如字词含义的消歧)与可否计算(如真实文本处理)两类问题。解答前者是人脑的擅长,解答后者是电脑的擅长。由于存在不可判断(ε)与不可计算(∞)这两类超出人脑与电脑处理范围的问题,因此笔者引入了(k + 1)双文双语协同智能计算系统,把问题转化限制在可判断{0,1}与可计算{0,1}+{00,01,10,11}+ … +{000…0,…,1…111}范围以内。于是,《字本位与中文信息处理的基础》实际上就是《融智学导论》3c 。
特殊性
同样是研究自然语言,不同学科有不同的视角,基础语言学站在人类智能主体立场,采用自然人的视角;计算语言学站在人工智能代理立场,采用计算机的视角;融智学导论站在(k + 1)双文双语协同智能计算系统“第三智能”立场,采用人机分工协作的视角。 所谓“第三智能”就是继人脑智能和电脑智能之后而出现的协同智能,其特征在于:“人际、人机、机际、机人”之间的“合理分工、优势互补,高度协作、优化互动”4d 。
重要性
自然语言与机器语言的互换主要是通过高级程序语言的中介而实现的。这条看似唯一的(直接)形式化途径与融智学导论的(间接)形式化道路相比,对英文信息处理而言是殊途同归,但是,对中文信息处理而言,前者就是“崎岖小路”而后者才是“平坦大道”, 因为,现在基于小字符集的形式语言和形式文法,根本没有考虑汉语的情形,更加不是为基于大字符集的中文而构造的,所以有必要为汉语及中文订制相应的形式语言和形式文法,最好是能兼容大、小字符集的形式语言和形式文法。融智学导论(字本位与中文信息处理的基础)正是从“第三智能”的角度来提出这个课题的。英文信息处理的事实证明,词的“粗分”5e 与“细分”6f 是必需的。如果汉语的字与英语的词能等价,那么,也就可直接套用英文信息处理的做法,然而,问题在于汉语的字与英语的词之间,不仅不具备等价关系,而且,是两个完全不同的对象语言体系,各自的思维模式也不同,因此中文信息处理不能简单地直接套用英文信息处理的做法,事实也证明此路根本走不通(中文信息处理现有的三大流派各自的预期都是至少还需要几代人的努力才可望有所突破)。而本专著所提出的间接形式化道路顶多需要十年就可做到全面突破(而且其中每个阶段都可有一个个具体的惊人的大突破——如在汉语“词”的切分与标注的根本性问题上,如在机器翻译上,等等)。
研究途径
从(k + 1)双文双语协同智能计算系统的角度来看,解决汉语“词”的切分与标注的根本性问题,是从解析“字与字组的关系”入手的,首先,要给出“字”的形式化定义,其次,要实现“字组”的数字化划分,最后,要完成“(字的每个)义项”的字组化解释。具体做法可概括为:间接形式化、全域数码化和双文双语化,其特征在于子全域和超子域的进阶层式化7g ,而且,有高效实用的(k + 1)双文双语协同智能计算系统为具体实现手段。
基本假设
假设1:如果脑与智不是一回事,那么,就没有必要等到彻底搞懂某一类脑才能理解智。
假设2:如果智意味着信息处理8h ,那么,理解智的关键就在于理解信息(如数字 意义)。
假设3:如果任何符号形式都可转化为数字形式,那么,语言形式也可转化为数字形式。
假设4:所谓理解,其实就是在全局中对局部的准确把握或认知,如在参照系中确定序位。
(在根本上具有创新意义的知识)
贡献
贡献1:发现并清楚地论述了汉语及中文的基本原理——字的迭交原理。
图1是“字的迭交原理”(字组的“粗分”与“细分”是其派生原理)示意图。
由图1可直观“字”这个概念的八个基本属性,分别揭示了微观语言学的文字、语音、语义、语法、语用、字典、释义元语和对象语言八个分支学科的研究对象。 可用解析法把“形字”和“音字”从“迭交”的“复合字”中分离出来9i 从而明确汉语及中文的“字”的形式特点:字(对象语言)具有一语双文(大、小字符集兼容)的特征。 在传统语言的“实字”与“虚字”的基础上引入“用字”和“ 解字”,不仅可形成“字组方阵”,而且还可提炼出“组字公式”,从而揭示出“字与字组的关系”,如“意+义=意义”,在形式上只是一个简单的字符串公式,在内容上却是一个非常复杂而又十分重要的“组字公式”,其中,前字限制后字。于是,现在的问题也就集中到了:“什么是意义?”这个问题上面来了。 西方哲学“语言转向”以来,所有的科学预言和哲学反思几乎全部都止步于这个被称为人文、社会和哲学等诸学科共同的核心问题或意义难题,竟然可用“意义=意+义”这样的一个十分简单的字符串公式直接地破题。这不能不说是汉语及中文一个非常独特的功能10j 。 这些发现是以往的汉语研究未曾注意更未曾上升到理论高度并形成体系的知识创新点。 其中区分“对象语言的字”和“释义元语的字(作为构造字组的基本结构单位)”甚至就是汉语“字本位”理论11k 也未曾注意且更未曾上升到理论高度并形成体系的知识创新点。
贡献2:给出了信息的一般科学定义(即“信息本体”)及其最基本的分类:
∀(信息)= ∀(义)+ ∀(文)+ ∀(意),其中,∀(文)含 ∀(物)的外观。
∀(义)= 可序位化的基本关系及其所构成的结构体系,
∀(文)= 可数字化的基本符号及其所构成的形式体系,
∀(意)= 可属性化的基本概念及其所构成的学问体系,
(普遍的)信息是内容上可概念化、形式上可数字化、本质上可序位化的范畴,可划分为概念、符号、关系三个基本范畴12l ,其特例(如具体的信息)就是各种各样特殊的信息。
贡献3:给出了智以及智力或智能的本质定义(即:智就是信息处理)及其基本分类。 (人们通常所说的)智力或智能,其实就是(如某类)脑所具有的信息处理能力的简称。
以生理的脑为载体(如人脑)的信息处理能力,即人脑智力;
以物理的脑为载体(如电脑)的信息处理能力,即电脑智能;
以人脑与电脑合理分工、优势互补,高度协作、优化互动的信息处理能力,即协同智能。
分别代表着智以及智力或智能的三种基本类型,其共性在于三者都具有信息处理能力,其个性在于三者各自具有相互之间不同的特定的信息处理能力。
贡献4:发现并清楚地论述了认知心理学双文双语信息处理与理解的协同存储原理。 笔者在认知心理学双语者研究两个对立的学说13m 的基础之上进一步提出了理论与实际更吻合的新学说——协同存储模型(以往的单独存储模型与共同存储模型可分别被视为其特例中两个极端情形)。采用成熟的计算机数据库和数据仓库技术在个性化与标准化有机统一的策略指导下,成功地实现了协同存储模型的计算机模拟,从而,很好地解决了计算机辅助翻译或双文双语信息处理乃至知识管理的一系列常规难题。不仅对机器翻译和翻译记忆技术的质量提高具有明确的理论指导作用和实践意义而且对语言与知识的定量处理很有效。
贡献5:发现并清楚地论述了形式理论的受限原理:易判断易计算原理。 笔者不仅对(基于小字符集的)形式理论进行了合理限制(即排除了不可判断的ε与不可计算的∞这两类超出了人脑与电脑的常规信息处理范围的情形),而且,严格地区分了子全域{0,1}和超子域及其各个进阶层式{0,1}+{00,01,10,11}+ … +{000…0,…,1…111},
从而为模式识别(间接地包含其他各种符号的模式识别)、语言理解(间接地包含自然语言理解)和知识表达(含知识获取与知识重用)等人工智能(如基于人脑智力的电脑智能)的一系列难题在协同智能计算系统的条件下得以顺利解决,奠定了完全(间接)形式化的基础。
贡献6:发现并清楚地论述了序位逻辑学的基本原理及其适用工具:双列表分层集合。 笔者根据“信息基本定律”这一经历了30年经验证实和数理证明以及众多的国际国内著名学者举世闻名的一个个特例(如数学的恒等变换及同解变形、形式语言S = NP + VP和数理逻辑的演绎推理)的充分验证的科学假设14n ,构造了双列表分层集合的序位逻辑模型,不仅可有效吸纳数理逻辑、算术推演、谓词逻辑和形式逻辑这些特殊的形式演绎体系,如:通过左列表单一集合实现纯形式的数学计算和推演,而且还可针对实际需要进行相应的推广或扩充,如通过右列表实现由单列表单一集合向双列表分层集合乃至多列表标志集合的语义扩展或变换,从而可实现由简单到复杂的逻辑推演和数学计算、统计乃至估算。也就是说,逻辑学由哲学思辨到数学计算或推演进而再到计算机处理或再现的拓广过程由此发展到了登峰造极的程度——可实现人际、人机、机际、机人的连通演绎乃至实用的相对完全归纳(如一个个受限范围的完全归纳在更大的范围之内仍然是相对完全归纳),突显了选域测序定位这一序位逻辑学的基本法则,为任何形式及内容的信息判定与计算、统计乃至估算所依据的基准参照系和应对参照系的建立奠定了坚实的逻辑学基础(和数学基础及语言科学基础)。
贡献7:发现并清楚地论述了自然语言的通用计算方法和基本计量工具。
笔者依据形式信息的判定与计算、统计乃至估算的融智学原理,分别已把汉语及中文与英语及英文的对象语言导入双列表分层集合,从而有效地建立了自然语言的通用计算方法和基本计量工具(1),对“词”的切分与标注可做到相对完全归纳(相当于穷举语言点和知识点)。
贡献8:发现并清楚地论述了信息知识的通用计算方法和可扩展的计量工具。 笔者依据内容信息的判定与计算、统计乃至估算的融智学原理,分别已把汉语及中文与英语及英文的释义元语导入双列表分层集合,从而有效地建立了自然语言的通用计算方法和可扩展计量工具(2);进而再导入多列表标志集合从而有效地建立了信息知识的通用计算方法和可扩展的计量工具。至此为止,语言与知识的计量这一难题的解决虽有一个基于相对完全归纳策略的系统解决方案(相当于必要条件),但是,似乎仍然缺乏某种可以让它活起来的保障措施(相当于充分条件),如:确保协同智能得以实现的生产式教学和一体化管理。
贡献9:发明了(区别于消费式教学的)生产式教学方法以及相应的协同智能训练体系。
贡献10:发明了(产、学、研、教、用、算)一体化(的知识信息数据的)管理方法。 这样,也就为笔者发明的(k + 1)双文双语协同智能计算系统的推广普及铺平了道路。
3.结语
简单的说,融智学的主题就是研究协同智能,如(k+1)双文双语协同智能计算系统15o 。 如果“智意味着信息处理”16p 而“处理”的八个基本步骤是清楚的,那么,“什么是信息”的问题也就成了一个更基础的必须解决的重大问题。 我们知道“语言形式与语义内容(含知识)”或“数据与知识”可视为信息这种现象的形式与内容两个方面。因此,“语言与知识”17q 也就自然成了融智学两个主要分支研究领域,涉及国内外人工智能学界公认的自然语言理解18r 和知识工程19s (含知识的获取、表达和重用)这两个非常重要的研究领域20t 。
图2是基于语言学与信息学的融智学研究对象的主题架构示意图。
图2“基于语言学与信息学的融智学研究对象的主题架构”示意图
由图2两个大箭头内嵌的字词解释,读者可洞悉上述融智学理论框架两个基本切入点。 现在的问题是中文信息处理和基于中文的知识管理远落后于英文信息处理和基于英文的知识管理。当然后者也有其自身的问题,否则也就没有我们说汉语写中文的语言社团翻身的机会了。融智学(理论)及其文化基因工程(实践)就在上述这两个基本切入点上面 字
首先获得根本性突破的,进而全面涉及《融智学导论》贡献的十个知识创新点及其整体功用。
参考文献
1、邹晓辉,义项语汇典例(SVDE)的总量控制模型[A],CLSW-5[C],Singapore,2004
2、邹晓辉,重构“概念分类体系”的新思路与新方法[A],CLSW-6[C], Singapore,2005
3、邹晓辉,优化“语义信息处理”的新方法与实施例[A],CLSW-6[C],厦门大学海洋文印,2005
4、邹晓辉,字本位与中文信息处理[A]信息学报[J]第2期,2006
5、邹晓辉,理性的标准的协同智能模型[A]CAAI-11录用,前沿科学[J]第47期,2005
6、邹晓辉,融智学的观点和方法[A]CAAI-11录用, 前沿科学[J]第47期,2005
7、邹晓辉,信息学基础研究[A]信息学报[J]第1期,2006
8、Zou Xiao Hui,Intelligence Means Information Processing[A]VII International Ontology Congress: Real or Virtual: from Plato’s Cave to Internet[C]Spain,2006
8、马蔼乃、姜璐、苗东升等主编,信息科学交叉研究[C],北京师范大学出版社,2007
9、徐通锵总主编,杨自俭主编,字本位理论与应用研究[M],山东教育出版社,2007
11、许嘉璐,现状和设想——试论中文信息处理与现代汉语研究[A],中国语文[J]第6期, 2000
把原来各页分散的脚注,改为此处集中的尾注:
1a 广东省优秀科技专着出版基金会2006专家论证通过正式资助将于2007年底/2008年初 出版发行。
2b 涉及拓广的(包容大、小字符集的)形式语言、形式文法、形式体系、形式理论和形 式科学。
3c 专门研究(狭义的)协同智能的概念、原理和方法及其典型实例的新型科学理论,涉 及微观语言学与信息本体学两个基础分支。融智学导论对理论融智学、工程融智学和应用融智学的研究成果只做简单介绍。
4d 协同智能的16字方针“合理分工、优势互补,高度协作、优化互动”
5e 如:英语的十大词类——代词、数词、动词、名词、形容词、副词、冠词、感叹词、介 词、连词。
6f 如:英文信息处理的UCREL CLAWS5 Tagset,UCREL CLAWS6 Tagset 和UCREL CLAWS7 Tagset Here, UCREL means the University Centre for Computer Corpus Research on Language, and CLAWS means the Constituent Likelihood Automatic Word-tagging System.
7g 这是以优化的形式理论为支持的科学方法的一个关键之所在。
8h 笔者提交第七届国际本体学术大会(2006年10月2至6日西班牙)的科学论文题目。 Intelligence Means Information Processing(智意味着信息处理)Zou Xiao Hui (in
Zhu Hai, China)
9i 类似于“做(虚拟的)分体手术”,首先分离“形字”和“音字”,进而分离大、小字 符集的“音字”。
10j 至少在此超级难题的解释上,英文不具备中文的这个优点。中文有自己独特的(区别 于小字符集的)形式化途径。邹晓辉:重构“概念分类体系”的新思路与新方法( CLSW-6论文集) ISBM98
11k 本该但是没有(注意且上升到理论高度并形成体系)。
12l 理论融智学通论所述四大基本范畴:(物)载体;{[(意)概念、(文)符号、(义)关 系]=信息}本体。
13m 即:单独存储模型与共同存储模型。两者都有各自相应的部分事实作为其理论的实践 支撑。
14n 笔者为自己在30年前提出的这一科学假设(信息基本定律:同义并列,对应转换)旁 征博引了可验证的几乎所有可以视为其特例的事实和理论(包含许多着名的理论),在有限域内至今没有发现一个反例。
15o 即人脑和电脑有机结合而成的“双脑”。也就是我们常说的1+1>2在脑与智的问题上
16p 笔者提交第七届国际本体学术大会(2006年10月2至6日西班牙)的科学论文题目。 Intelligence Means Information Processing(智意味着信息处理) Zou Xiao Hui (in
Zhu Hai, China)
17q 它们的根本难点在于语言与知识的定性分析和定量计算或统计乃至估算。前者涉及(文 化基因工程的)文本(形式信息)基因系统,后者涉及(文化基因工程的)知识(内容信息)基因系统以及总体知识框架。
18r 即(理论上叫做)计算语言学(含自然语言理解,如英文、中文等具体的自然语言信 息处理的实践)
19s 即(狭义的)人工智能
20t 融智学实际上发现了“人脑(本身的)智能- 电脑(人工的)智能-(双脑)协同智能” 这样一个进化路径。其中,智是核心,协同智能计算系统是主干,“语言与知识”或“数据与知识”是它的两翼。
改变科学研究思路的十个知识创新点 ——探索汉语理论建设.pdf
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 10:49
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社