汉字编码与汉语编码是两体系(不是一回事)。
三类双语信息处理所采用的汉语文本符号编码是自动生成的。
许多人都在汉字与汉语两类文本体系的区别和联系上产生误解(这是十多年前我的语言学导师北京大学徐通锵教授所遭遇过的误解)。
我这方面的研究正好化解了此类误解(其前提条件是:理解基因文本模型、言和语区分的理论、序位逻辑以及熟悉三类双语信息处理技术;否则,就必然误解即张冠李戴-把文字文本和语言文本混为一谈,例1:汉字编码必无法彻底去重;例2:拼音编码必无法彻底去重;例3:简单地把汉字和拼音混合编码也必无法去重)。
时隔十几年还会有人把自动生成的id代码误认为是人为的编码。
这提示我们可在新的时代背景下再来从更多的角度重新审视汉字与汉语两类文本的“迭交”属性。
仔细想来,不理解数字与字符(汉字的和汉语的)这样的一组双列表(第三类孪生图灵机)是很正常。
国际学术界为什么公认歧义问题是新旧人工智能技术的核心问题(其中最难的不是一个一个具体的歧义问题怎样解决,而是很难找到宏中微三个序列全面贯通的一组判定尺度-这才是融智学关注的一个根本的焦点)。
https://blog.sciencenet.cn/blog-94143-1149493.html
上一篇:
怎样形式化地理解融智学所述的道函数?下一篇:
应用(广义和狭义)语言文字的智慧能力是最高级的