信息学基础研究分享 http://blog.sciencenet.cn/u/geneculture 语言理解&知识表达

博文

应用(广义和狭义)语言文字的智慧能力是最高级的

已有 1411 次阅读 2018-12-3 14:37 |个人分类:融智学前期探索|系统分类:教学心得| 汉字文本, 汉语文本, 融智学三部曲

首先,统一认知系统和符号体系
例1:汉字的基本笔画和汉语音节
都涉及形字与音字两类和而不同的字,即:汉字文本和汉语文本
图1

汉字文本和汉语文本分属不同的两个学科即文字学与语言学
都是可视的
但是,有区别(根本属性不同)
结构形式也不同
分属于层面型结构与线串型结构

图2
由图2可见“音字”切分为“节点”与“形字”拆分为“部件”。“层面型结构”顶层可透视的音形“迭交”情形。在图 2 中“义”这个“字”正位于“线串型结构”的“音字”(语言可分出库)与“层面型结构”的“形字”(文字可简化入库)的“交汇处”。[9] 2002年黄昌宁教授邀请笔者到微软亚洲研究院为其介绍字本位与中文信息处理的研究成果(邀请笔者的还有中科院的黄河燕、北大的俞士汶、清华的陈群秀、中软的关维忠等)。2007年黄昌宁表达了对字词关系的新认识:“把分词过程视为字的标注问题的一个重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。在这种分词技术中,文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习架构上,既可以不必专门强调词表词信息,也不用专门设计特定的未登录词识别模块。这使得分词系统的设计大大简化。在字标注过程中,所有的字根据预定义的特征进行词位特性的学习,获得一个概率模型。然后,在待分字串上,根据字与字之间的结合紧密程度,得到一个词位的标注结果。最后,根据词位定义直接获得最终的分词结果。总而言之,在这样一个分词过程中,分词成为字重组的简单过程。然而这一简单处理带来的分词结果却是令人满意的。”[10]
现在的字库里的字是没有区分字分属于层面型结构与线串型结构
因此形式歧义必然存在(这就是为何形码与音码都有重码之故)
基于工程融智学指导下的字库字分属于层面型结构与线串型结构(从根本上就化解了形式歧义)
这是其一
其二就是
内容歧义是如何化解的呢?
它是在基于应用融智学指导下的一系列字组库各类字组来形式化地化解的:
图3
图4
图5
图6
图7
图8
图9
由图9可见,一系列的“双列表”【即“孪生图灵机”的一种表形式(即“多胞冯氏机”)】,左列序号“音节总量控制模型(GSCM)”数据自动查询经“双列表”自动转换可有针对性地重用右列【经“专家-用户”(师生)选订的部分】字与各级“字组”【有汉语思维能力或选择习惯(即识别、理解、表达或重用“言、辞、链、块”或整体上与之等价的“汉字语素和汉化的词及词组或短语”)即可设订具体的约束条件】。“双列表”左右对应关系用恒等式“I D= I K+I U”表示,其中,“I D、I K、I U”分别表示(特定总量的)数据信息与(其中蕴含的)已知信息和未知信息,“I D=n2≈n m=b”表示其计算原理(矩阵及线性代数为算法优化和数据结构简化提供了保障)。3图9展示了字与词的义项分析(字间形式信息标注)途径及可重用工具,可结合图2展示的字内与字间形式信息的关系来理解。
最后,体现在三类双语信息处理系统即可在使用过程中体现认知系统与之匹配的相互关系。

图10
图11
微观上的操作和计算都弄清楚后
其实际作用也就大致明白了(其用处太多了,因为一旦语言文本全球定位系统GLPS普及应用许多问题就迎刃而解了。就如同GPS普遍应用于手机之后人们就不必要再做许多问路的事情了同理)
(工程和应用)实践融智学目的是实用(这个已不是问题,为了加速推广应用就需要理论解释

各位想到和提出的问题早就有人已经提出过了并被系统解决了
请继续关注:
图12
图13
图14
图15
图16
图17
图18
图19
图20
图21
基于理论融智学的顶层设计涵盖了已知和未知的所有学科
这就不要求每个人一下都懂了
随着一个一个权威学术查询平台都陆陆续续可见到大家也就悟了



https://blog.sciencenet.cn/blog-94143-1149604.html

上一篇:挑战会带来意外惊喜:前沿专家解决了的问题还需要通俗化转述
下一篇:一旦跨学科暨跨界,每个专家都是业余者或新学生。
收藏 IP: 117.61.129.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-23 18:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部