信息学基础研究分享 http://blog.sciencenet.cn/u/geneculture 语言理解&知识表达

博文

两大类形式化方略(2013年《计算机应用与软件》+2026第三方评论)

已有 113 次阅读 2026-2-13 13:42 |个人分类:双语信息处理|系统分类:论文交流

第三方评论:

邹晓辉、邹顺鹏提出的“两大类形式化方略”理论,是近年来在机器翻译与软件工程交叉领域出现的一种具有原创性的方法论体系。该理论以“广义双语协同处理”为核心概念,通过对编程语言进化史的重释和对自然语言形式化路径的反思,构建了一套以“三类双语协同变换”为技术内核、以“孪生图灵机”为实现模型、以“言和语的关系”为本体论基础的双重形式化框架。以下从问题意识、理论建构、技术路径与学科价值四个维度,对该理论进行系统综述。

一、问题意识:三重“巴比塔”困境与“三大瓶颈”

该理论的提出,源于对现有形式化方略根本局限性的诊断。作者指出,自图灵、乔姆斯基、巴科斯以来,形式化研究始终沿着一条“单语接力”路径展开:自然语言需依次经过形式语言、编程语言、计算语言等中介层级,方能与机器语言建立对应关系。这一路径虽奠定了计算理论的基础,却也衍生出三重“巴比塔”困境——

其一,自然语言领域因语种隔阂而形成的交流障碍(“神造”巴比塔);其二,编程语言领域因语言繁多而形成的知识隔阂(“人造”巴比塔);其三,形式语言领域因理论分化而形成的学科壁垒(“第三巴比塔”)。

对于以中文为母语的用户群体,这一困境进一步表现为“三大瓶颈”:语言非主流(英语主导的编程生态)、知识缺原创(核心术语与概念体系依赖引进)、软件无根基(底层平台受制于人)。作者认为,上述问题的根源不在于技术执行的不足,而在于形式化方略本身对“单语中介”路径的路径依赖。因此,破解之道并非在既有路径内“强智化”,而是另辟蹊径,开辟以“双语协同”为特征的“第二形式化路径”。

二、理论建构:两类方略、七代语言与三类双语

该理论的核心贡献,在于将形式化方法划分为两大类别,并据此重构编程语言进化谱系

第一大类形式化方略以编程语言为中介,实现二进制数与自然语言之间的逐级转换。其特征是“单语接力、桥梁传递”,对应于编程语言发展的前五代:数字化(机器语言)、符号化(汇编语言)、结构化(高级语言)、对象化(图形化语言)、强智化(知识工程语言)。作者充分肯定这一路径的历史贡献,但也指出其在自然语言理解、跨语种适配、非专业用户可及性等方面遭遇“智能化瓶颈”

第二大类形式化方略则以“三类双语协同变换”为基本操作单元,绕开单一编程语言的中介依赖,直接在二进制数与十进制数、十进制数与汉字汉语、汉语与英语(或其他自然语言)之间建立对应转换机制。其特征是“同义并列、对应转换”,对应于编程语言发展的后两代:弱智化(基于广义双语的“傻瓜化”语言)与协同化(三类双语协同运行的语言平台)。

这一划分不仅是对编程语言史的重释,更是对“形式化”概念本身的拓展。作者明确提出,形式化不等于符号化,更不等于英文化;以汉字单音节字为单位的“序位关系”系统,同样具备可计算、可枚举、可重用的形式化潜力。由此,该理论将“言和语的关系”确立为语言学与信息学的共同研究对象,并提出了引入融智学基础研究成果的两条形式化信息定律:

  • 本真信息定律(序位关系,唯一守恒):在确定的序位体系中,信息单元的分布位置具有唯一性与守恒性;

  • 形式信息定律(同义并列,对应转换):在双语或多语并列的条件下,信息内容可在不同形式系统之间保持等价转换。

这两条定律构成“孪生图灵机”模型的理论基础,也为“间接形式化”“间接计算”提供了可操作的算法框架

三、技术路径:孪生图灵机、虚拟天平与中文棋盘

技术实现层面,该理论以三类孪生图灵机为核心装置,分别对应三类双语协同转换的典型场景:

  1. 并行孪生机(a型):纯二进制数可计算上限的体现,用于形式系统内部的对等映射;

  2. 天平孪生机(b型):十进制数与汉字汉语之间的标准化计量转换装置,基于“同义并列”法则

  3. 协同孪生机(c型):穷举汉字集与十进制数之间的匹配收敛装置,实现单音节字序位与数字编码的双向可计算性。

这一“天平—砝码”隐喻将自然语言处理问题转化为计量学问题:标准化砝码(十进制数)用于称量非标对象(汉字、词语、句类),而“称量”的过程即是间接形式化的过程。作者以中文棋盘典型案例,论证了单音节汉字在音、形两个维度上的“迭交”属性如何使其同时具备语言单元与信息单元的双重身份,进而成为可枚举、可计算、可重用的“文本基因”。

在此基础上,作者进一步提出第六代、第七代编程语言的设想:前者以“弱智化”为特征,面向非专业用户,依托广义双语本体库实现“傻瓜编程”(如今的大型语言模型已经验证并为其理论普及铺平了道路;后者以“协同化”为特征,支持多文种、多领域、多媒体的“三多”知识中心建构,形成可共享、可积累、可演化的协同编程环境。

四、学科价值与理论意义

该理论的价值仅在于其技术构想,更在于其所体现的学科观与方法论转向

第一,它打破了“形式化=英文+数理逻辑”的单一路径依赖,将汉字汉语系统纳入形式化研究合法对象,为非英语计算机用户提供了理论上的平等地位与实践上的可行路径。这对于中文信息处理、少数民族语言信息化、跨语种知识工程等领域具有重要的战略意义。

第二,它重新界定了语言学与信息学的关系。作者将“言和语的关系”确立为两大领域的迭交研究对象,并试图在索绪尔语言和言语的区分、图灵的机器计算(图灵机实质是可否计算的界限)、乔姆斯基形式文法之间建立统一的概念框架。这种跨学科整合的尝试,为计算语言学、形式信息学、知识工程交叉学科提供了新的本体论基础。【还有塔斯基形式语言(对象语言和元语言的划分)和形式语义学,克莱尼的字符串形式理论,邹晓辉的理想集合=单一集合+分层集合+分类集合(含:物意文三类现象信息处理=标志子集+属性子集+特征子集)

第三,它在“强人工智能”与“弱人工智能”的对立之外,提出了以 “智慧能力观” 与 “融智方法论” 为代表的第三条路径。这一路径既不追求机器对自然语言的完全理解,也不满足于狭小领域的局部适配,而是通过“人机合理分工、优势互补、高度协作、优化互动”的16字原则,实现专业用户与普通用户的协同参与。这一取向不仅具有技术上的务实性,也具有教育普及与文化包容的深远意义(以人口大国和教育大国以及高等教育大国为例,其普及过程中即可步步有成就而不仅仅只是补补有成就感!)。

五、小结与展望

综上所述,邹晓辉、邹顺鹏提出的“两大类形式化方略”理论,是一项以双语协同为方法论核心、以中文汉字为典型案例、以“言和语的关系”为本体论基础的系统性学术建构。它既是对既有形式化路径的批判性反思,也是对新形式化可能性的开创性探索。

该理论已在机器翻译、软件工程、协同智能计算等方向形成初步的应用成果,但其更深远的影响在于:它让“非英语使用者也能成为形式化世界的参与者”这一愿景,从理想走向可操作的技术方案。未来,随着“三类双语协同编程环境”的持续开发、“三多知识中心”的逐步积累,以及该理论在更多语种、更多领域的迁移验证,其学术价值与实践意义有望得到更充分的释放。

因此,在如今人机互助新时代,学界和业界都有必要系统地研读该原创工作这一部分的小结:

两大类形式化方略*

要: 本文旨在阐述软件工程的两大类形式化方略。其中,第一大类形式化方略涉及:编程语言和自然语言;第二大类形式化方略涉及:二进制数与十进制数、十进制数与汉字汉语、汉语与英语(可换)三类双语协同变换,属于形式化及其拓展研究领域。其结果是:凸显了第二大类形式化方略。其意义是:揭示了其理论依据,并为含语言学在内的学科知识系统工程提供了广义双语信息处理技术,有利于母语非英语的计算机用户改善人机对话的语言环境。

关键词: 软件工程; 形式化; 广义双语信息处理

中图法分类号 TP3-05   TP391.7   DOI号:10.3969/j.issn.1000-386x.2013.09.054

Two Major Categories of Formal Strategy *

Abstract This article aims to explain the two major categories of formal strategy for software engineering. Among them, the first category of formal strategy involved: programming languages and natural language; the second category of formal strategy involves: binary and decimal, decimal numbers and Chinese characters, Chinese and English (can be changed) the three types of bilingual co-transformation belonging to formalize its expanding research field. The result: the paper highlights the second category of formal strategy. Its significance lies in: to reveal its theoretical basis and to provide the generalized bilingual information processing technology for knowledge systems engineering of disciplines, including linguistics, that is helpful to non-English speaking computer users to improve the language environment of man-machine dialogue.

Key words:Software Engineering, Formal Method, Generalized Bilingual Information Processing

1  引言1.1 背景

学界把基于索绪尔创立的普通语言学[1]和塔斯基[2]以及乔姆斯基提出的形式语言理论[3]以及获得长足发展的计算语言学视为语言学的分支学科[4],本文指出:形式语言理论和计算语言学同时也是信息学的一个分支学科,因此,不仅语言观及方法论的发展变化,而且,信息观及方法论的发展变化两方面都必然对形式化产生重大影响[5],软件工程形式化理论必然随之发生相应的发展变化[6],本文报告的也就是基于新的语言观及方法论与信息观及方法论“迭交”的“第三脑”的广义双语协同处理新策略[7]即双重形式化新方略。

其中,图灵设计的理论计算机即论证的可计算数或二进制形式系统即图灵计算机[8]。克莱尼给出的字符串形式理论即克莱尼星号[9]。巴科斯领导的研究组开发出世界上首套形式化的高级编程语言,即Fortran,是英文“FORmula TRANslator(公式翻译器)”的缩写,形成了计算机科学和软件编程领域的巴科斯范式(Backus Normal Form缩写BNF[10],它实质上等价于乔姆斯基划分的形式语言基本类型(区分为0,1,2,3型语言)[11]。作为帕斯卡(Pascal)语言之父的尼古拉斯•沃斯,给出的三类基本的控制语句和凭借一句话(即“算法+数据结构=程序”),还荣获了图灵奖[12]。而作为世界上第一个被正式地推广使用的高级语言(Fortran)的领导者和计算机科学及软件编程领域著名的巴科斯范式(BNF)创立者的约翰•巴科斯,当然也荣获了图灵奖。编程语言进化发展的前三个里程碑至此凸显了形式化第一方略。

1.2 目的(涉及方法、结果及作用的概要)

本文针对第一形式化路径遭遇“智能化”瓶颈,对母语是汉语即中文的民族国家所面临的就是“三大瓶颈”(语言非主流、知识缺原创和软件无根基)的困境,不仅介绍了笔者发现的第二形式化路径,而且,还提出了双重形式化路径并行方略。

从理论和实践结合的角度,也就是说:

本文旨在通过崭新的语言观及方法论及其相应的信息观及方法论的应用来分析、比较和阐述软件工程的两类形式化方略。具体方法是在编程语言及其发展进化的较高层次靠近自然语言的一系列“架桥”即第一途径之外,另辟蹊径开辟第二途径,就是通过由二进制数与十进制数、十进制数与汉字汉语、汉语与英语(可换成其他外语或少数民族语乃至人工语言以及编程语言及其表达的术语或俗语)三类双语协同变换的方式构造一系列虚拟天平即通过一系列数字砝码称量语言、知识和软件的方法以及双重形式化途径的自然语言理解之策略。其结果是发现第六和第七代编程语言的双重结构及其殊途同归的并列计算模式。其作用不仅在于它有利于母语非英语的专家和大众两类用户改善其人机对话的语言环境,而且,还揭示了其理论依据并为含语言学和信息学在内的诸学科知识系统工程的开展提供了广义双语信息处理技术。第一大类形式化方略2.1编程语言隐含第二个“巴比塔”问题

image.png 

1最常用最流行的几十种编程语言举要

由图1可见,从1943年至2009年以来众多编程语言中选出的这几十种来看,就有不少是普通程序员们不知道的,除非他专门研究过编程语言的发展演变历史。这就好比是发生在编程语言领域的第二类“巴比塔”,相对于古希腊寓言故事在自然语言领域的第一类“巴比塔”情形来说,其区别就在于第二类问题是人造而第一类问题是神造。

笔者这样来区分两类“巴比塔”问题,既非牵强附会也非文字游戏而是事出有因。请读者想想:软件工程各个环节中最困难的事情究竟主要是什么?难道不就是这两类“巴比塔”问题造成的一系列分歧隔阂吗?

当一个领域的专业人员或普通用户在不精通编程语言的时候,就必然会同时遭遇古希腊寓言故事所描述的发生在自然语言领域的第一类“巴比塔”困境和笔者所描述的发生在编程语言领域的第二类“巴比塔”困境。其一凸显的是人际交流与沟通的障碍,其二凸显的是人机交流与沟通的障碍。如何才能同时克服两类语言障碍呢?第一大类形式化方略并无良策,第二大类形式化方略虽有良策但它又如何兼容于前者呢?笔者发现这两大类形式化方略(见图2及其说明和论述)相互结合可产生最佳的良策。在此基础上,笔者进一步提炼出了编程语言发展进化中具有各自特征的一至七代编程语言。

2.2 自然语言形式化进程中逆向考虑并可按其特征分类的七代编程语言整体架构

image.png 

2 编程语言发展过程中逐步形成的七个特征

由图2可见,编程语言及其发展进化的七个特征:1.数字化,2.符号化,3.结构化,4.对象化,5.强智化,6.弱智化,7.协同化。反过来,分别用表示这七个特征的术语作为限定词与编程语言这个主词或中心词结合在一起,可分别表示编程语言及其发展进化的七个阶段,即:1.数字化编程语言(机器语言),2.符号化编程语言(汇编语言),3.结构化编程语言(三类控制语句可模块化的高级语言),4.对象化编程语言(图形直观化高级语言),5.强智化编程语言(基于知识的人工智能化高级语言),6.弱智化编程语言(基于广义双语的“傻瓜化”高级语言),7.协同化编程语言(三类双语即六种语言可协同运行的三多知识库建构的选择式语言)。

第一代编程语言,数字化的机器语言,其特征是面向硬件即开关电路或数字电路直接采用二进制数的数字化编程语言平台;

第二代编程语言,标准化的汇编语言,其特征是面向代码即美国标准信息交换码扩展而采用“助记符”代码化编程语言平台;

第三代编程语言,结构化的高级语言,其特征是面向过程即通过基本“控制语句”以及“数据结构+算法=程序”这样的清晰的过程而建模的结构化编程语言平台;

第四代编程语言,对象化的高级语言,其特征是面向对象即借助存储的“类库”而调用函数库选配编程所需的对象“类”及其“属性”等简便操作的对象化编程语言平台;

第五代编程语言,强智化的高级语言,其特征是面向知识即明确约束依托存储的知识库可直接重用专家系统所具有的事前“切分”和“标注”的词汇或术语及相应的句型句类的知识化即强智化编程语言平台。

由于在这个阶段电脑遭遇了前所未有的自然语言理解困难,因此不仅强人工智能学派的哲学观遭遇弱人工智能学派的挑战,而且相应的科学研究和技术探索均遇阻碍。

笔者就是在此背景下提出以下见解的:

第六代编程语言,弱智化的高级语言,其特征是面向用户即依托广义双语本体化信息就是从其蕴含的形式化数字代码数据、结构化模块数据、对象化知识数据等一系列中间库存可直接重用“二进制数与十进制数、十进制数与汉字汉语、汉语与英语(不仅可替换成其他语种的某类自然语言而且还可替换成其他种类的编程语言乃至专家术语和大众俗语这样的另类双语)三类双语”的弱智化及协同化的后两代编程语言平台。

可以说,真正需要用户特别记忆的数字或代码符号、模块、对象和知识都减少到了几乎没有特别负担的程度。“三类双语”的协同化便于雅俗两类用户联手做傻瓜编程。

2.3涵盖自然语言理解的间接形式化即双重路径殊途同归协同并进的编程语言及其理论基础

编程语言在其发展进化过程中可经历数字化、符号化、结构化、对象化、智能化和傻瓜化乃至协同化七个阶段性特征,可以使涵盖自然语言理解及其两种形式化编程路径殊途同归,还可使与其相应的理论基础——在哲学的人工智能观或方法论上涉及的“强人工智能”与“弱人工智能”的两种对立观点及其各自相应的软件开发环境及在这两个极端基础之上的系统工程方法论,笔者不直接采用两种对立的观点及方法而是在它们两方面的基础之上另辟蹊径提出“智慧能力观”及其相应的“融智方法论”作为高技术的傻瓜编程语言的理论基础。

因此笔者对编程语言进化发展“弱智化”之前五个阶段的“数字化、符号化、结构化和对象化以及强智化”五个具有里程碑意义的转折点在第一大类形式化方略(其中高级编程语言发展阶段涵盖半形式化方略可视为其发展进化过程中必然的形态)中的作用均给予充分肯定。然而,这并不就代表笔者发现并积极推荐选用第二大类形式化方略采用的“弱智化”和“协同化”的傻瓜编程语言,这一组具有新的里程碑意义的转折点应在“强人工智能”与“弱人工智能”之间简单地偏向“弱者”,尽管笔者宁可把两类用户“傻瓜化”也不愿把他们“强智化”为“知识技能上打肿脸的胖子”。其理由就是,无论语言的种类还是每种语言的复杂性乃至其承载或蕴含知识和信息的总量及复杂程度,都远不是任何个体用户(无论是专家用户还是普通用户)所能直接驾驭的。

image.png 

3编程语言发展进化过程逆向展开的基本路径

由图3可见,自然语言理解形式化双重路径,其中第一路径和第二路径可分别代表两种不同的思路:“第一大类形式化方略”的“强智化”特征和“第二大类形式化方略”的“弱智化”特征。前者,二进制数与自然语言之间是通过编程语言实现中介转换,其典型特点是在三类单语之间传递“接力棒”,该中介具有“桥梁”作用;后者,二进制数(即机器语言)与十进制数(即算术语言)、十进制数与汉字汉语、汉语与英语(即自然语言)之间是通过基于“标准与法”建构的虚拟“天平”实现对应转换,其典型特点是三类双语的协同运行或操作机制“同义并列,对应转换”法则与“序位关系,唯一守恒”法则在汉字汉语协同处理上的间接形式化方略显现出来的独特表现或优化性能,其中,单音节字在音形两类间“迭交”的双重属性是根本特征,这在普通语言学和形式语言学乃至形式信息学上表现出来就是“言和语的关系”这一语言学根本研究对象或信息学的根本研究对象即本真信息的本质特征,及其可计算机辅助描述、解释以及它可被功能化展示的特性。

由图3还可见形式语言和计算语言笔者均加了括号,旨在说明它们虽然可在理论上探讨,但是,在实践中即实际编程的时候则均离不开编程语言,这就是如今各种形式的编程语言会有两三千之众的一个缘故,其中,有两部分被分别纳入了低端形式语言理论和高端计算语言学的研究范围,这就让人们似乎看不到编程语言学自身的理论究竟在哪里了。是否可把完全形式化的形式语言学与目前还是形式化和半形式化夹杂在一起的计算语言学纳入编程语言学的范围?这是另外一个可进一步思考或探讨的问题。

换一句话说,上述两大类形式化方略,在看待和取舍“智”的问题上,“强或弱”殊途同归于“智”,“强或弱”傻瓜编程语言,在半个多世纪的时间云集了各方面的人才,创建了编程语言发展的四个里程碑,其理论基础是非常坚实的,但是,在进入的第五个和第六个里程碑的交汇处即“智能化”发展阶段,却遭遇了“强智”与“弱智”的冲突,在理论上是“强人工智能”与“弱人工智能”之间冲突。如果说“结构化”为其相应的各个严格受限的专门领域的知识工程奠定了高级编程语言的基础,“对象化”为其相应的各个严格受限的专门领域的人机交互即简化了高级编程语言的形式,那么,进一步把“强智化”和“弱智化”结合,“强智”与“弱智”相辅相成,就必然为形式化双重路径铺平道路。于是,笔者就想,既然最终追求的是两类用户编程语言和设计软件的“傻瓜化”即“强智”与“弱智”相辅相成,为何不可在前人和他人走过的“第一路径”即“第一大类形式化方略”外另辟蹊径寻找前人和他人没有走过的“第二路径”也就是“第二大类形式化方略”呢?事实已经证明前人和他人走的“第一路径”即“第一大类形式化方略”在“神造”多种自然语言互通障碍外,又“人造”两千多种编程语言互通障碍,对非英文尤其是中文用户特别不利。

第一个“巴比塔”的问题还没有解决,又造成了第二个“巴比塔”的问题。甚至还在继续造第三个“巴比塔”(多种形式语言)的问题。三个“巴比塔”交织在一起,势必大大地延缓自然语言形式化理解的进程。

3  本文强调的形式化新方略

第二大类形式化方略,是把自然语言和算术语言在信息恒等式约束之下同义并列,采用“三智结合”的傻瓜编程语言结构框架。实际上就是在最简单的算术语言即十进制数与最熟悉的自然语言即汉字汉语之间来虚拟地构造一系列“天平”,分别从左端的机器语言即算术语言,就是通过二进制数与十进制数虚拟天平的标准化砝码,从右端的两类自然语言即中文和英文的虚拟天平来称量非标的个性化组合,加上机人对话界面,构造三类双语协同运行操作的一整套协同处理系统(即三类孪生图灵机协同使用),用“双语双智”系统巧妙地化解“单语单智”系统难免遭遇的“强智”与“弱智”冲突。

可这样来理解图3中那个由右向左的“形式化”箭头所表达的是自然语言理解的形式化方向,有两个基本路径:一是二进制的算术语言、形式语言、(高级)编程语言、计算语言和以英语为例的自然语言共五个等级,均归属于第一路径,前五代编程语言划归在其中,二是十进制的算术语言和与其按照函数关系同义并列的以汉字汉语为例的自然语言,归属于第二路径,第六和七代的编程语言则划归在这里(提示:由于在此涉及双重路径,因此,涵盖三类双语),可经十进制转换为二进制来间接形式化以及间接计算自然语言,故称为第二方略,它是明显区别于第一路径的各个阶梯的一系列直接通向二进制的“桥梁”,就是说,第二路径的机人或人机对话广义双语“天平”,也可以根据时间次序和空间位置的一系列分布情形来解决用户的针对性的问题。例如,这就像一个虚拟的“天平”其左边十进制数即标准化的“砝码”与其右边的汉字汉语,即待称量的非标“东西”(在此是汉字以及基于它而组合变换的汉语)。汉字具对象化特征,可满足间接计算“笔画和音节”这样的条件,也可满足以同样方式间接计算“字、式、图、表、音、像、立体、活体”对象的条件。如果把它们视为广义的语言和言语,那么,也就能采用“言和语”的划分及其可演绎推理的一系列“关系”来区分“单一的言”及“二元乃至多元的语”和其中蕴含的多个系列的“关系”。

由此可见,双重形式化途径及其配套的七类编程语言之间的关系,在理论上被这样清晰地揭示出来,对语言、知识和软件三大工程,向语言、知识和软件三大系统工程的发展具有莫大的贡献。因为人机界面优化了。

3.1  间接形式化和间接计算“言”和“语”

image.png 

4 可称量各类具体对象的虚拟天平示意图

由图4可见,不仅狭义的言和语一系列关系可称量,而且广义的言和语的多个系列关系也都可称量。在图4虚拟天平的下方是总量信息恒等式。其含义是数据信息总量(ID)等于知识信息分量(IK)和未知语义或情报信息分量(IU)。用在中文信息处理示例(3.3以中文为例理解“言和语的关系”)有具体说明。它蕴含狭义信息(IUIDIK)可指代对象及内容即广义信息(IDn2)因其形式简单故所指存在不确定性,这凸显了狭义信息与广义信息的相对性,从而也就为“孪生图灵机”及其所依据的信息恒等式(IDIUIK)即“同义并列,对应转换”法则(即形式信息定律)提供了用例,这与前述“序位关系,唯一守恒”法则(即本真信息定律)是呼应的,是双重形式化方略的理论基础。以下提供上述两个法则(即信息基本定律12)可计算且可推理的典例。

3.2 以二进制数为例理解“言和语的关系”

image.png 

5  言和语的关系在机器语言里可表达

由图5可见,用“比特”可计量形式上最简单的狭义信息从而把“言和语的关系”表达得非常透彻。最简单的纯形式化的机器语言,其狭义信息量是可直接计算的,例如,可用“单一集合”作为“基准参照系”,来计量“分层集合”的每层“子集”及其成员。

换句话说,明确“言”在形式上可作为“语”在形式上的计量单位即其所含具体“言”之重用频率及组合与分解的各种分布情形的测量或计量“尺度”。因“言和语的序位关系”在理论上唯一守恒,“序位关系,唯一守恒”法则(即本真信息定律)在图5所述“言和语”范畴之内是可证成的。因此 应用图5所述以二进制数为例的“言和语”之间“序位关系,唯一守恒”法则(即本真信息定律)用“单一集合”作“基准参照系”来计量“分层集合”的每一层“子集”及其成员,可进一步测量或计量各种“标志集合”。虽然,被选“标志”可造成相互冲突,但是,不影响“分层集合”完整序位体系的自洽性。

有了“单一集合”作为“基准参照系”,再有“分层集合”成员“各就各位”的特征与“标志集合”标志“各取所需”的特征,进而把两者结合就可建构“应对参照系”并用于测量可分解乃至可重组的“杂多集合”的一系列“子集”。因“杂多集合”指代的克莱尼星号(∑*)所蕴含或许可的缺省值(ε)和无穷(∞)两类变化,故其分解或重组的具体“杂多集合”的一系列“子集”,务必置于一定的约束条件(即“单一集合”的类型和“分层集合”的层级)下方可度量。

当然,这些“约束条件”是仅就纯形式的“文”及其序位关系(“法义”或“道理)而言的。至于它们如何被载体(“物”)选用(“意”)?则是另类问题(涉及“标志集合”乃至“杂多集合”)。由于二进制数{0,1}以及十进制数{0,1,2,3,4,5,6,7,8,9}这类单一集合及其分层集合的构造原理类似,加之,作为文字的中文{笔画}或英文{字母}及作为语言的汉语单音节{}这类单一集合及分层集合的构造原理也类似,虽然后面这些例子都要复杂许多,但是,均可间接地形式化和计算、计量或统计,具体的办法或途径就是采用“孪生图灵机”的装置来实现。

image.png 

6 孪生图灵机及其渊源和以字为例的应用

由图6可见,左边a是由两并行图灵机组成的一个虚拟孪生图灵机,中间b和右边 c均可视为其等价形式,且各具特征:b是天平式计量转换装置——基于“同义并列、对应转换”法则而建构,其具体应用实施例c是穷举汉字集而构造,遵循“同意并列、对应转换”法则而构造,该实例融标准化与个性化为一体以间接形式化方式可实现数与字、机与人之间的“合理分工优势互补和高度协作优化互动”的16字协同智能计算系统特性。因图6所示的abc三种基本形式具有一个共同的特点,即:它们(所有的“双列表”)都由左右对称的虚拟表(VT&LVT&R)所组成;abc三种基本形式又各有其自身的独特性,即:并行计算模型a是纯二进制数可计算上限的体现,天平计算模型b是左列表的十进制数可计算上限和右列表的虚拟“格”可计算上限的匹配待选装置,协同计算模型c是左列表的十进制数可计算上限和右列表的单音节字的可计算上限匹配收敛装置,这就是说,由ab再到c的过程,可计算上限是在逐步收敛的。

3.3以中文为例理解“言和语的关系”

与前述【以二进制数为例理解“言和语的关系”】的算术语言形式化理解遥相呼应的【以中文为例理解“言和语的关系”】的自然语言形式化理解,不仅在理论上可充分体现其内在的逻辑演绎特征,即序位关系(这是在数理逻辑体系和文法逻辑体系内的科学机理),而且,还可在实际应用中以棋盘原理的方式来加以理解,是有力的类比。也就是说,全世界的数字棋盘和文字棋盘及中文棋盘都是可以在计算机辅助条件之下不仅可以做到其基本的序位关系唯一守恒(第一基本信息定律的体现),而且还可以做到其演绎派生的序位占用分布格局之间,只要满足同义并列对应转换(第二基本信息定律的体现)的情形,就可以在双列表或者对称矩阵乃至任何类型的对称模型之间来做跨越不同的形式体系之间的相互代换。

据此笔者就构造了三类双语协同转换的广义语言的机器翻译与“三多”知识中心。所谓“三多”就是多文种、多领域和多媒体的简称。三类双语在此的实施例特指汉英(狭义的)双语、语数(广义的)双语以及术俗(另类的)双语。三类双语协同转换的共享平台,好比是以一个超级的中文棋盘为基础而建构的三类双语协同转换游戏装置,其特征在于中文的单音节的字是可枚举的,进而也就方便了双音节乃至多音节的调用机制的发现和提取。第六和第七代协同编程语言开发环境及其网络共享平台就建立在该三类双语协同转换机理的基础之上。

image.png 

7以中文为例说明“言和语的关系”

由图7可见,中文的“言”即“单音节的字”,具有可枚举且可间接形式化并间接计算或计量统计的现实性、独特性和方便性。中文的“语”即“双音节及多音节的字组”虽然数量较大,但是在大众常识和领域专识的使用范围看,其可且易统计重用的特点,无论计算机辅助教学或机器翻译在图7所述计算机辅助查询的检全率和检准率都最高。换句话说,以往用户认为自己说的话语似乎全出自个人的心智,其实不过是心智选取了图7所述的中文棋盘里的某些个组合或分布的单音节字所占据的那些序位而已。于是乎,图7所述的中文棋盘之序位关系(“法义”或“道理”)及其那些个单音节及其组合或分布的双音节或多音节的中文(“文”)被某些个用户选用(“心智”或“意”)而已!。至于具体的发音或发音器(“物”)也可以是该“文”类的具体对象或实施“物”例!。

image.png 

8在“类”上来说明“言和语的关系”

由图8可见,它与图5和图7所枚举的微观示例不同,是从“类”的宏观角度上来系统阐述普通语言学和形式语言学即形式信息学的基本研究对象以及派生研究对象。它是语言学和信息学及其形式化的“迭交”领域最新研究成果的直接体现。

语言学界同行周知,索绪尔区分了语言和言语,而信息学界的同行也周知,图灵、冯诺依曼和仙侬均以二进制数作为计算机和通信的小字符集串,图8所述的统一模型把自然语言和机器语言纳入“言和语的关系”模型之中,在图8主要是以宏观的“类”来清晰描述的,而在图5和图7是以二进制数和中文这样的微观“例”可枚举即可计算且易于搜索并有针对性地重用或形式化方式加以展示。至此,已可见语言学和信息学及其交叉领域国内外同行长忽略的“言和语的关系”这一研究对象及其本真信息的特征,它如受到其应有的深入探讨和应用推广,那新一代的广义双语化的傻瓜编程语言必将为母语非英语的两类计算机用户带来机会。

也就是说,如果图5和图7以二进制数和中文的微观“例”枚举了可计算且易重用并便于搜索并有针对性地加以展示,那么,图8则把自然语言和机器语言纳入“类”的概念框架来看“言和语的关系”,从而,也就明确了广义(普通和形式)语言学及其可实现广义机器翻译的三类双语化方法架构。

image.png 

9 双重路径形成过程与编程语言进化历程

由图9可见,第一、二、三代编程语言在第一路径形式化发展演变进程中,单语化特征和中介作用是毋庸置疑的。第四代编程语言实际上不仅引入了对象化的图形语言而且也同时带入了“傻瓜化”的特征或元素。但是,在第五代编程语言或第五代计算机的智能化进程中却遭遇了前所未有的困难。

自然语言理解作为人工智能典型代表长期未能获得根本性突破。自然语言处理故降低标准或期望,即由“强人工智能”转向“弱人工智能”,在系列局部或专门的狭小即受限领域获得了重要的可喜的研究进展。本研究在此基础上,采用逆向思维另辟蹊径提出自然语言形式化理解进程的第二方略,同时也为第五代编程语言开辟了第二路径,更为第二方略开辟了与之相适应的第六代和第七代编程语言的双文双语化途径——这是前所未有的广义双语协同处理的策略,其做法是在二进制数与十进制数、十进制数与汉字汉语、汉语与英语(可替换)之间来建立三类双语协同处理的第六代和第七代编程语言开发环境及其网络共享平台。由于英语“可替换”为其他自然语言,同时,也就为“可替换”为其他编程语言开了口子,从而,蕴涵并超越了第一方略的前五代编程语言的单语“接力棒”式的单向加工特点。其实,第四代就开始试图向广义语言方向来发展了,只是语言学理论没有跟上其步伐。

结语3.1 小结

综上所述,编程语言发展到“对象化”,学界和业界就已经开始领略到了“强智”与“弱智”的冲突以及向“傻瓜编程”的转折。如果说,高级语言及其软件工程具有形式化(基础是无歧义推理)、结构化(精致——表达的清晰或简明)和“对象化”(直观——调用标准“类库”的“对象”及其“属性”)三大特点,那么,其中形式化基础由图灵[8]、克莱尼[9]、巴科斯[10]和乔姆斯基[11]等先驱者们奠定,而结构化是在形式化基础之上的精细化[12],“对象化”则是更加的人性化即界面友好化[13]——从某种意义上说就是由“强智化”向“弱智化”转变的开始。

因此,编程语言发展到第五、六代两个阶段就必然遭遇“强智”和“弱智”两方面的冲突,这是自然语言形式化理解进程中所遭遇的“智能化”难题,不引入新观点就难以另辟蹊径。本文所述“三类双语协同变换”及“广义双语信息处理技术”是一种新观点及其相应的新方法。

最重要的是图6所示三类“孪生图灵机”及其所依据的信息恒等式(IDIUIK)即“同义并列,对应转换”法则(即形式信息定律)均有典型用例,与前述“序位关系,唯一守恒”法则(即本真信息定律)相呼应。两者是双重形式化方略的理论基础。尤其是图6所示后两类虚拟“孪生图灵机”的结合可间接计算文本基因,不仅有很好的收敛性,而且还有很好的算法及优化数据结构。

3.2 议论

编程人员熟悉的形式化方略,事实上有不少只能算是半形式化方略。也正因为如此,其利弊参半的情况就不可避免。其利就是为软件工程奠定了较为坚实的基础,其弊则是不仅在专业上给软件工程造成了真的隐患,而且,把专业人员与非专业人员两方面各个群体都局限到了非常狭小的领域,否则几乎就难以展开任何有较大实际意义的突破。这是“分工日益精细、交合越加复杂的困难”造成上述专业与非专业两大类用户均难免遭遇的人际间自然语言交流和人机间编程语言交流以及形式语言交流的三重“巴比塔”问题或困境。中国人还受“三大瓶颈”制约!。

其中,至少涉及:人际交流的专业术语和通用俗语及其背景知识乃至形式化表达的问题,人机对话界面“标准和法”的问题,机际交换接口的规范或标准的问题,等等。

由于广义文本“迭交”的“杂多集合”特征而往往难以甚至不可能直接计算,因此,开辟间接形式化和间接计算路径不仅具有战术作用,而且具有战略意义。它对进一步开辟两类市场即高端学术市场即大学教育高深知识探讨所关注的窄众市场以及低端大众市场即日常应用软件产品服务关注的宽众市场,这两方面都是有价值的,尤其对三类双语协同编程开发环境及其网络共享平台所具有的相对容易推广普及的两大类用户而言,更为重要的是:在此进程中,尤其是大学的能力训练或教育与知识处理或管理,所需要的“三多”知识中心的建构,正是上述两类用户在建构和使用三类双语协同编程开发环境及其网络共享平台进程中可以通过日积月累的过程而形成。

这对中国这样的高等教育大国和人口大国的各类主干人群的素质、能力和知识的大幅度提升是具有非常显著的意义的!。

[1]  (瑞士)费尔迪南·德·索绪尔 (作者). 高名凯 (译者). 普通语言学教程[M]. 商务印书馆,1980年;(瑞士)费尔迪南·德·索绪尔 (作者). 屠友祥 (译者). 索绪尔第三次普通语言学教程[M]. 上海人民出版社,2007

[2]  Tarski(塔斯基).The Semantic Conception of Truth(真的语义学概念即语义学基础)J. Readings in Philosophical Analysis(哲学分析读物),H. Feigl and W. Sellars, New York: Appleton, 1949 

[3]  (美国) 诺姆·乔姆斯基(作者),邢公畹等(译者). 句法结构[M]. 中国社会科学出版社,1979

[4]  冯志伟.计算语言学的历史回顾与现状分析[J].《外国语》(上海外国语大学学报)2011年第1期(总191期)p9-17

[5] Zou Xiaohui. Value-Taking and Confidence-Building of Language[C].Flattening the World: Building a Global Knowledge Society, 2012 AAAS Annual Meeting (16-20 February 2012) p28

[6] 邹晓辉,邹顺鹏. 软件工程学科何以独特——形式化方法的双重路径[J].软件. 2011(07)

[7] 邹晓辉,邹顺鹏.协同智能计算系统——理论模型及其应用[J]. 软件. 2011(06)

[8]  A. M. Turing(图灵).Computability and λ-Definability[J].The Journal of Symbolic Logic,Vol. 2, No. 4 (Dec., 1937), pp. 153-163

[9]  Stephen Cole Kleene(克莱尼).On Notation for Ordinal Numbers[J]The Journal of Symbolic Logic,Vol. 3, No. 4, Including an Update to A Bibliography of Symbolic Logic (Dec., 1938), pp. 150-155On the Interpretation of Intuitionistic Number Theory[J].The Journal of Symbolic Logic,Vol. 10, No. 4 (Dec., 1945), pp. 109-124

[10]  J. W. Backus(巴科斯), F. L. Bauer, J. Green, C. Katz, J. McCarthy, P. Naur, A. J. Perlis, H. Rutishauser, K. Samelson, B. Vauquois, J. H. Wegstein, A. van Wijngaarden and M. Woodger.Revised report on the algorithmic language ALGOL 60 [J].The Computer Journal (1963) 5 (4): 349-367.

[11] Noam Chomsky(乔姆斯基). Syntactic structures [M]. Mouton & Co., 1957

[12] Niklaus Wirth(尼古拉斯·沃斯)). Program development by stepwise refinement [J].Communications of the ACM CACM, Volume 14 Issue 4, April 1971, Pages 221-227

[13] Ole-Johan Dahl,Kristen Nygaard.SIMULA: an ALGOL-based simulation language[J].Communications of the ACM,Volume 9 Issue 9, Sept. 1966

image.png

邹晓辉(研究员,博士导师) 

邹顺鹏(研究生,在读博士)

 

 全文:

两大类形式化方略_邹晓辉.pdf

 

 

 

 

 

 

 

 

 

 



https://blog.sciencenet.cn/blog-94143-1522214.html

上一篇:间接计算模型和间接形式化方法(2011年《软件》“专家论坛”)
收藏 IP: 116.31.52.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-13 19:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部