|||
(3.3)、语言文字的信息处理:
人类在几万年以前就使用语言交流信息,语言信息交流能力甚至成为人类进化成为生物界顶级角色的重要条件。世界上的语言因为交流的地域的限制,而形成了多种多样的形式。经过几万年的演化,到目前全世界还有大约5千6百多种语言。随着交流范围的扩大而逐渐形成少数几种大范围的语系,但是各地仍然有不同的方言。这些问题使得全球的语言交流带来很大的麻烦。联合国为了方便交流,规定了6种使用人数最多的语言为工作语言:汉语,英语、法语、俄语、阿拉伯语与西班牙语。即使这样,多种语言表达的信息之间的翻译工作量也是非常巨大的。而且可能发生不能准确表达信息的的问题。语言翻译工作的机器实现也是人类发展机器信息处理的一个重要方向。
语言的使用使得人类互相之间的信息交流更加方便有效。文字的出现人类可以记录语言表达的信息,使得人类之间的信息交流同时在地理范围和时间范围上大大的扩展。在信息的积累和深化提炼成为知识的作用上文字具有更加重要的作用。但是语言的信息传达能力始终不尽人意。为了改进语音的信息表达能力,人类总是在不断地改进语言,特别是文字的发展更加艰难。从古至今人类发展了各式各样的多种文字,又有多少文字因为种种原因而烟消在历史的长河中。
目前世界上使用人数最多的文字是汉字,使用国家最多的语言是英语。人类早就努力想发展统一的语言和文字,但是这个理想却难以实现。连圣经都记载着上帝因为害怕人类具有统一的语言而能力强大故意把语言搞乱。口头的语音表达的语言信息是人类信息交流的一种非常重要方式。开始在同一个地域,人们用同一种语言进行交流,所以语言的形成是以口头交流开始的。文字也是为了交流信息而发明的,世界各地不同的语言,不同的文字之间的交流一直是比较麻烦的。
西方的拼音文字基本和口头语言是一致的,但是中文的文字和语音开始是分开的。从秦始皇统一文字以后,在很长的历史时期中文字表达的文言文和口头语言是不同的。这样的好处是文字信息交流不受各地口头语言的差异的影响,有利于大一统的国家范围的信息交流,从而保证了国家的统一。但是文字和口头语言的差别也让人们学习语言工具带来难度,直到近代中国采用白话文才把中文和标准语音(普通话,或者国语)统一起来,成为现代中文。虽然中文可能是世界上信息表达最好的几种语言之一,但是因为中文文字的构成的复杂性和语音的多样性,也使得中文成为世界公认的难于学习掌握的语言。今天人类可以借助于科技的力量让使用不同的语言文字的人群比较顺利地进行信息交流。连最复杂的中文文字和语音的语言机器处理技术都已经非常成熟,实现了广泛的使用。
除了不同语言之间的交流困难以外,语言文字的信息表达的更加麻烦的问题可能是:它的有限的信息表达能力。为了提高语言文字的信息表达能力,人们总是在不断地改进语言。各种语言文字的结构、语法越来越复杂。比如汉语可能有多达十万多不同的字,经常使用的汉字也有2到3千。而汉语词汇可能达几十万之多,常用的词汇大概也有3到4万个。加上语法,句子结构等,语言更加变化多样。英语的常用单词量大概也在17万左右,一般人为了比较好地用英语表达信息大概也需要掌握几万个单词。不同的语言的信息表达方式更加多种多样。人们为了学会读写和理解语言文字的信息表达要花费很多精力。在历史上很多社会中只有少数处于社会统治顶层的统治阶级的人才可以掌握文字。更加极端的一些社会可能仅仅只有宗教指定的极少数祭师可以掌握文字,比如南美洲的玛雅人。当强大的外部文明把这些掌握某种文字的人消灭以后,这种文明也就会因此而中断。
虽然语言越来越复杂,但是各种语言对信息的描述常常表现得非常无力。比如对一幅自然景象要用文字完整地表达出来可能用千万种,而读文字的人可能理解得到的信息也会有千变万化。在照相技术出现之前,人们通过文字描述难以表现的信息,还要通过图画来表达这些复杂的信息。在一些科学技术领域,对于一些物质运动的复杂信息的描述,普通的语言文字可能不能够正确地表达。于是科学家还创造了更加适合于精确表达的数学语言来描述这些信息。而这种复杂的数学语言的学习和掌握可能也只有少数人可以完成,大多数人可能更是望尘莫及了。
虽然语言文字的信息表达有很多局限性,但是在人类信息交流过程它仍然是不可或缺的。特别是人们为了表达自己思想中的一些对外界直接信息的理解(常常称为人的思想意识)的时候,语言文字可能还是目前唯一的选择。因为人类不具有思想意识的直接交流能力。人类是不是能够进化出这种能力(或者借助人工机器实现这个交流)可能还是很久以后的事情。
人类为了提高处理语言文字的信息表达功能,第一步是对语言文字的推广。纸张和印刷技术的发明可以看做是人工语言文字信息处理的开始。有了纸张和印刷术,文字对信息的作用深深地影响了人类文明发展的历史。因为文字对信息的记录除了直接的观察信息的记录以外,更加重要的是人们对直接信息的思考整理以后的信息(可以称为知识的信息)。而且这些知识可以通过文字在人类的教育活动中流传和积累起来作为进一步发展的基础。这个也是文字对信息处理有更加重要的作用。那么如何进一步处理信息得到知识,也是人工信息处理需要解决的问题。(这个问题在后面再进一步介绍)
目前人类利用机器进行文字信息处理还仅仅处于记录,交流等初步处理阶段。在数字通信系统和计算机系统中,文字通过二进制编码(包括各种文字输入方法)把文字变成二进制数据记录和传输。对文字语言数据的进一步机器处理,整理,如何利用机器提取更加深刻的知识信息还在研究之中。计算机记录文字数据的速度和海量的记录能力已经超过人的大脑,对人类的信息处理过程有很大的帮助。所以文字数据处理技术已经成为人类对信息处理一种有力工具,现代社会中人们从这些文字数据中获得的信息比直接从周围环境信号中获得的信息还要丰富。机器信息处理也成为数据处理的最重要途径。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 20:21
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社