||
这是我多年以来关注到的一个现象。现已有进一步考虑:
一语双文是书面汉语的典型特点;
双文多语是中文口语的典型特点,如:各种形式的方言就是活的汉语的特点;
它们都可纳入言和语的关系模型实现计算机辅助计算和间接形式化处理。
最终实现:自然语言理解、专家知识表达和软件模式识别三位一体效果。这是信息处理、大数据和新一代人工智能三大技术共同的焦点。其核心关键问题是一系列的歧义如何高效率化解?这是系统工程融智学提出的问题(属于进一步协同智能计算系统视域提出的问题)。
以下附图是用文本语音转化及语音合成软件实际应用的三个截图(可对富文本富媒体窥斑知豹):
一语双文是现代汉语增加拼音以后非常典型的特征。由于汉字属于大字符集,而汉语拼音则属于小字符集,因此,在计算机人机交互过程中通行的美国标准信息交换码(ASCII)一统天下的时代,汉字的计算机输入、存储、输出以及传输和处理都曾经没有中文的入口。国标(GB)出来之后,中文信息处理才有了外挂或翻译间接进入人机交互的基础,拼音输入法和五笔输入法并举就是小字符集和大字符集在一语双文的格局中切入人机交互的典型,汉字的显示暨输出则是另一个典型:汉字的字库与拼音的字库分属不同的字库。如今重提该事实并上升到理论层面来进一步探讨它并明确采用一语双文的术语来刻画汉语中文(Chinese)不仅是网络计算机时代的必然需求,而且还是中国文化传承与发展的必然要求。
一语双文的书面汉语:汉字+拼音
Google 在线 翻译 已经 实现 了 汉语 “一语双文” 体制:一种 语言(普通话),两种 文字 文本(汉字 文本 和 拼音 文本)。从 英语 翻译 成 汉语,就 自动 出现 两种 汉语 文本。特别 值得 表扬 的 是,拼音 文本 同时 是 词式 文本,遵守 《汉语 拼音 正词法 基本 规则》。
一语双文是汉语中文的特点。具体表现就是:单音节的汉字和拼音联合作为汉语的基本结构单位,双音节及多音节的字组大字符串和拼音小字符串都是汉语的派生结构单位。由于汉语的两种文本记录方式仅仅在读音上直接联系,所以不能简单地把形式上不同的大小字符串在意义上画等号(用拼音替代汉字之所以失败的原因就在于此)。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 18:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社