信息学基础研究分享 http://blog.sciencenet.cn/u/geneculture 语言理解&知识表达

博文

基本发明专利及专有技术领域的“睡美人”之三

已有 1623 次阅读 2018-8-9 09:12 |个人分类:融智学前期探索|系统分类:科研笔记| 文本基因, 广义文本, 本真信息

     

一种知识信息数据处理方法及产品


       本发明涉及人工智能、计算机和通信技术的交叉综合领域,属于一种语义信息及真实文本的数字处理技术,进一步是一种知识信息数据处理方法及产品。


        现在,虽然在知识工程、信息技术和数据或数字技术等方面有很大的发展,但是,由于人类关于语义信息的定性分析、定量分析和结构分析长期未能获得实质性的重大突破,因此现有技术至今仍无法解决以下一系列知识信息数据处理的难题。


        数据或数字处理作为现有技术的核心,对形式信息的量化处理虽然十分有效,但是,对语义信息的量化处理却难以直接派上用场。因此,各种各样的中介技术方法及产品,便介入并参与了对知识信息及真实文本的量化处理,尽管其效果大打折扣。在受限范围现有技术虽有较大进展,然而,在非受限范围却一筹莫展。因为,现有技术只能对受限范围的知识信息及真实文本进行局部的量化处理,所以,不能从根本上解决冗杂文本、非标形式、垃圾信息、知识爆炸和怪圈悖论等难题。


       目前,还没有能够一揽子解决上述难题的技术公开。可以说,就解决上述难题而论,不仅现有技术与相关技术的整合优势没有形成,相反,各自为政、一盘散沙的劣势却无处不在。根本谈不上,在人工智能与人类智能、电脑与人脑、电信网与神经网之间实现协同效能或优势互补。协同智能的发展在知识信息数据处理领域受到了现有技术的瓶颈制约。至今为止,尚无与本发明相同或相似的方法及产品问世。


        现有技术的发展还受到当前的语义学理论和语义信息处理理论的发展制约。产业界对知识信息及真实文本的量化处理技术的效率,之所以如此低下,这与学术界对语义信息的本质认识或阐述不清,是息息相关的。不仅仅是普通人把形式信息与语义信息混为一谈,而且绝大多专家也都常常把衍生形式与本真信息混为一谈。至今为止,还没有人明确地区分本真信息、形象符号、载体载能和意向意识,并且以此作为重构人类整个知识概念体系的基础框架。虽然个人计算机和互联网技术接二连三地推动着信息技术不断地向前发展,但是,语义信息的本质究竟是什么?至今仍未见有令人信服的报道公开。对语义信息的定性和定量表述,还无法令人满意。


        以下进一步举例说明现有技术的缺陷或不足。


        以知识信息数据处理为例,无论是直接的模数转换还是间接的编码转换,要么由于真实文本未经提炼就直接转换为数字符号,根本谈不上对知识信息的量化处理;要么由于真实文本与数字符号之间的中介程序太多太杂,根本无法形成对知识信息及真实文本进行量化处理的统一标准,现有技术只能是一盘散沙、各自为政。


       进一步,以编码转换为例(涉及语言形式和知识内容的处理),一方面,现有的语言信息处理系统(包括机器翻译、自动识别以及广义文本通译等),还存在各种语言形式之间的通译和同种语言地非标形式的识别等一系列技术瓶颈;另一方面,现有的语义信息处理系统(包括机器分类、自动浏览以及知识基因提取等),也还存在诸如冗杂文本、垃圾信息、指数爆炸和怪圈悖论等一系列难题。现有软件工程及知识工程体系还缺乏从受限范围到非受限范围的转换机制,缺乏总体标准。


        再进一步,以金融监管(涉及证卷、期货、外汇交易各方对价格信息的量化处理)为例,造成失误或失败的原因虽很多,但根本原因是:人们还没有找到能够对各种价格变化所包含的激励或预警信息进行及时而透彻分析的有效方法(包括定性分析、定量分析和结构分析)。人们普遍认识不到:金融的本质是智融,缺钱的实质是缺智。现有的专家系统,无论是终端还是网络形式,都不具备协同量化处理知识信息及真实文本的功能;现行科教体系熏陶或培养出来的专家,即使是最有知识的专家,也只能处理非常有限的知识信息及真实文本,而且,还常常伴随着以偏概全的议论或见解。由此可见,人工智能和人类智能,都面临着协同智能的严峻挑战。        推而论之,在不同方面、不同阶段、不同层次和不同系统,都能轻而易举地发现现有的教育、科技、经济、政治、外交、军事、法律、医疗卫生和日常生活等几乎任何一个领域都面临上述难题和挑战。在如今这样一个充满竞争且快速变化的竞智时代,试想一想:如果一个人、一个单位、一个国家,总是处于冗杂文本、垃圾信息、指数爆炸和怪圈悖论的包围之中,既搞不清楚自己所收到的这么多知识信息的本质含义,又不知道如何准确无误地发出自己应该发出的有的放矢的知识信息,也不明白自己所处的内、外、大、小环境中实际存在的各种重要的知识信息(包括正面的激励信息和反面的预警信息)的基本内涵,这时,如果这个人、这个单位、这个国家又处于不利的竞争地位,甚至面临危机,那么,其处境或命运将会是怎么样的一种状态或过程呢?其结果是可想而知的。如果一个系统,包括智能网络及终端乃至独立的机器人,总是被非标形式或垃圾信息所阻止或干扰而无法正确应变,那么,其结果也是可想而知的。

       人类的整个知识概念体系,特别是语义信息理论体系,至今仍然是一个大杂烩,其根基是不牢固的。例如:以唯物论、唯心论和形式论三个基石为不同支点而形成的各种基本观点,以及在它们的基础之上构建的人类知识概念体系及其各个分支理论,都忽略了本真信息的根本地位,甚至把本真信息与载能载体、意向意识、形象符号等衍生形式之间的基本关系本末倒置。在这种情况下,要发明量化处理知识信息及真实文本的有积极效果的新技术,首先就必须要找到能重构人类整个知识概念体系的新理论,否则,就根本不可能超越现有科技框架而获得真正的重大突破。

          


      本发明的目的是提供一种知识信息数据处理方法及产品,包括:文化基因工程方法以及相应产品的生产及使用方法;全域数码定位系统及其派生产品。通过对全域基因文本元素的完全归纳和对已知域及目标域基因文本组合的相对完全归纳,解决知识信息的计量及测度的难题,促使人工智能与人类智能优势互补,形成效率更高的协同智能,促成形式信息革命向语义信息革命的时代飞跃。


       如果说信息论创始人仙农提出了形式信息数据处理技术及标准,那么,本发明的目的就是提出语义信息数据处理技术及标准;如果说全球定位系统(GPS)、柔性加工系统(FMS)和横断扫描仪(CT)是针对载体载能进行的全球数字定位、柔性加工和横断扫描,那么,本发明的全域数码化的网络、出版物和终端就是对知识信息进行的全域数码定位、柔性加工和横断扫描;如果说人工智能、电脑和电信网在形式信息数据处理技术的支持下获得了极大的发展,那么,本发明就是要使以协同网络、协同终端和出版物为特点的协同智能在语义信息数据处理技术的支持下获得前所未有的发展,早日迎来智能主体进化发展的新阶段——协同智能时代。


       本发明的具体任务是:一、提供文化基因工程方法即全域数码定位方法;二、提供全域数码定位系统,产品形式包括:1、纯形式的全域数码化网络,即知识信息数据处理领域的“GPS”;2、纯文本的全域数码化出版物,即知识信息数据处理领域的“FMS”;3、纯数码的全域数码化终端,即知识信息数据处理领域的“CT”。

       http://m.zhuanlichaxun.net/p-1055871.html 

      本发明依据融智概念体系和信息基本定律而设计并实施。

      所谓融智概念体系(注:涉及对人类现有的整个知识概念体系的量化重构),是指以义、文、物、意为基础而构成的协同智能主体的知识概念体系。其量化形式采用能够通过复数域及复平面乃至曲面出入多元数系及多维空间的四元数形式。义,指本真信息;文,指符号形象;物,指载体载能;意,指意识意向。文、物、意统称本真信息的广义文本。形式信息涉及文、物,其中,文,包括图、文、数(注:数字信息技术属于此范围)、表、音、象等形式,物,包括立体、活体等形式;语义信息涉及义、意(注:现有的意义理论及语义信息技术没有明确区分义与意)。

       以曲、棋、语言为例,对上述概念及原理的基本含义说明如下:曲、棋、语言的机理(含:法则),是本真信息,即义;展示其机理的文化形式,如:乐谱、棋谱、文字或字母或动作等,是符号形象,即文;展示其机理的物化形式,如:琴、棋、传感器官(含使用过程)等,是载体载能,即物;演奏者、下棋的人、智能主体的选择(包括以虚拟或实体的形式体现的意),是意识意向,即意。

       所谓协同智能主体,是由人工智能和人类智能构成的新一代智能主体。其功能是对体现义的基因文本元素及组合(包括程序、结构以及框架等)进行完全归纳及相对完全归纳,以及,由此发展的知识信息数据处理(包括广义及狭义的处理)能力,具有专家系统与专家群体的整合或综合优势。

       所谓信息基本定律,即:本真信息,唯一守恒;基因文本,对应转换;基因通式,序趣简美;特式特例,非非各平(即:非对称、非同步、各自平衡)。

       唯一守恒法则,体现本真信息的唯一性和守恒性;对应转换法则,体现图、文、数、表、音、象等本真信息或基因信息的多元基因文本(注:因为文、物、意,都是义的展示,具体表现为多元基因文本元素及其派生的各种基因文本组合)只要同义即可并列;序趣简美法则,体现在文化基因通式及基因文本通式之中;非非各平状态极其转换或变化过程,是指各种各样的特式或特例与通式相比较,具有空间上的非对称性和时间上的非同步性,以及特式特例各自平衡及趋动的特性。

       本发明的目的是通过下述方案实现的。

       基本方法:

       一种知识信息数据处理方法,是对语义信息及真实文本进行定性、定量及结构分析的文化基因工程方法,其特征是:从广义真实文本中提取、剪接或重组文化基因,步骤是:以完全归纳的全域为基准参照系对基因文本元素的复用次数或复制件数进行自动统计,以相对完全归纳的已知域及目标域为应对参照系对基因文本组合的复用次数或复制件数进行自动计量,其中,基因文本元素及组合均采用码式并列的形式,包括式隐码显或以码代式与码隐式显或以式代码等特殊形式,即在全域数码文本体系与多元基因文本体系之间建立对应转换关系。

       相应的基本产品的生产方法:

       一种知识信息数据处理产品的生产方法,是以码代式进行知识信息数据处理的方法,其特征是:选择纯数字形式和纯载体形式并使之相结合构成全域数码定位系统,步骤是:采用(a+bi&...)的具体数字作为指代基因文本元素的标准代码;采用卡、表、库、网、端的具体载体作为承载基因文本元素及基因文本组合的标准载体;以全域标准代码构成基准参照系;以已知域及目标域标准代码组合构成应对参照系。

       相应的基本产品的使用方法,同时,也是派生产品的生产及使用方法:

       一种知识信息数据处理产品的使用方法,是以式代码进行知识信息数据处理的方法,其特征是:使用并依托全域数码化网络的基准参照系及应对参照系,步骤是:通过码式并列,把广义真实文本中的基因文本元素及组合全域数码化,构成实用的多元基因文本,即全域数码化出版物;通过码隐式显以及多元基因文本分析,支持实施知识系统工程。

       进一步的派生产品的生产及使用方法:

       一种知识信息数据处理产品的使用方法,是以码代式进行知识信息数据处理,步骤是:使用并依托全域数码化网络及全域数码化出版物,通过式隐码显,构成数字的一元基因文本,即全域数码化终端,支持实施网络及网际知识产权监管和端到端的默契通信。

       相应的基本产品:

       一种知识信息数据处理产品,是由码、卡、表、库、网、端构成的全域数码定位系统,包括纯数字形式和纯载体形式,即全域数码化网络,其特征是:纯数字形式,采用(a+bi&...)的形式语言编制源程序,采用(0&1)的形式语言编制目标程序,(a+bi&...)与(0&1)的交集即编译程序;纯载体形式,采用卡、表、库、网、端的具体形式承载码。

       相应的派生产品:

       一种知识信息数据处理产品,其特征是:由全域数码化网络支持的全域数码化出版物,包括已知域集大成共享基因文本和目标域集小成独享基因文本,含公开或保密、标准化或个性化、通用或专用的多元基因文本出版物。

       进一步的派生产品:

       一种知识信息数据处理产品,其特征是:由全域数码化网络及全域数码化出版物支持的全域数码化终端,含交换机及服务器和用户计算机及其它终端装置或载体的一元基因文本终端。

       详细步骤进一步综合说明如下:

       …………

       本发明的又一种表述如下:

       本发明是处理语义信息及真实文本的文化基因工程方法及产品,具体包括:

    一、文化基因工程方法,其步骤是:

    1、在复数代码体系与二进制数字体系之间建立一一对应关系,从而,构成对指代文化基因的全域数码及全域数码组进行全域定位的数学模型。它涉及已知域及未知域,相当于一个拥有无穷多个座位及编号的超级剧场的“号码体系”;

    2、以卡为单元载体,在码与卡之间建立一一对应关系,用表对之进行操作,以库、网、端的形式,构成对承载基因文本的元素卡及结构卡进行全程扫描的物理模型。涉及目标域,它相当于上述超级剧场的“座位体系”;

    3、由码、卡、表、库、网、端,构成全域数码定位系统,如:实施例1,它相当于该超级剧场的整个号码座位体系;从真实文本中“对号入座”地自动提取相应的基因文本,从而,构成自由剪接或任意重组已知域及目标域基因文本的柔性加工用户模型,如:实施例2和3,它们相当于该超级剧场的以下“入场情形”,即:“实际入场”(有“入场者”,即已知域其它多元基因文本)和“虚拟入场”(无“入场者”,只有目标域其它多元基因文本的代码)两种情形]。

        二、文化基因工程产品的三个实施例:(1)由“号码体系”和“座位体系”构成的纯形式系统产品,它相当于该超级剧场的整个号码座位体系;(2)由“实际入场”的已知域及目标域其它多元基因文本构成的纯文本系统产品;(3)由“虚拟入场”的已知域及目标域全域数码文本构成的纯数码系统产品。

        域、位、点、式、码、卡、表、库、网、端的含义及特征:

       …………

       

       上述十个方面的相互关系:

       如果把本发明的产品形式比喻为一个超级剧场,那么,域,就是该剧场所有的座位及其编号可能涉及的任何一个范围,涉及各个实在或虚拟的分剧场;位,就是该剧场的各个被实在或虚拟地设置或占用的序位;点,就是该剧场的座位及编号被实际或虚拟地占用的具体分布情形;式,就是该剧场的座位及编号被占用的情形的称谓或叫法,涉及各种称谓体系;码,就是该剧场的座位的编号,它是上述所有的称谓体系中的一种既最全面又最简捷的标准称谓体系或全域数码体系;卡,就是该剧场的最简捷的标准座位形式;表,就是该剧场的座位及编号指南或视频向导;库,是该剧场的座位编号的集中形态;网,是该剧场的座位编号的分布形态;端,是记录该剧场占用情形的装置,包括出入口。

       本发明方案涉及的部分创新概念的有关词语的基本含义说明如下:

        …………


        



 



https://blog.sciencenet.cn/blog-94143-1128311.html

上一篇:戊戍六月二十六清晨醒来就理解模型形成了清晰的表述
下一篇:观念体系制约认知体系且影响言行习惯
收藏 IP: 117.61.64.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-27 07:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部