席鹏的个人博客分享 http://blog.sciencenet.cn/u/xipeng1

博文

关于语言的杂想(三):语言的效率问题

已有 1769 次阅读 2021-12-30 16:50 |个人分类:观点|系统分类:观点评述

Artificial-Intelligence.jpg

序:语言是我们人类发展出来的交流工具,或者叫做编码系统。由于语言的应用需要输出者和输入者使用同一套规则,并对所描述的事件、物体具有共同的体验,因此语言又和历史时期、地域建立了时间与空间的联系。《圣经·旧约·创世记》记载,当时的人类随着发展,联合起来兴建希望能通往天堂、与神在一起的高塔—巴别塔。为了阻止人类的计划,上帝变乱了人类的语言。人类相互之间不能沟通,巴别塔计划因此失败,人类自此各散东西。这个故事,成为人类分为不同种族的注脚。本文尝试以连载的形式,回答几个常见的语言的问题。

 (3)  语言的效率问题

语言作为一种编码系统,主要用于交流者与交流者变换输入(听)与输出(说)的关系,从而形成交流。所以天生的聋子都是哑巴(缺失了听力,无法学会说话),但是天生的哑巴却不一定是聋子(缺失了说话能力,但是耳朵完好,仍能正常接收)。

如果与另一种系统-计算机进行比较,我们就会发现人的沟通和计算机具有非常大的联系与非常大的区别:

联系:

1.   无论是人类沟通,还是计算机通讯,都需要进行“握手”,双方使用同一协议,从而进行通讯;

2.   双方通讯都收到带宽限制,这个带宽对于人类是说话的速度,对于计算机是网络调制解调的速度。

3.   由速度慢的一方定义该用什么样的速度交流。

 

区别:

1.  人类由于大脑是隔离、不对外的,所谓“人心隔肚皮”,不同的人交流时,并不是完全信任的状态;计算机在建立了连接后,一般双方的交流并没有信任级别这个设置,也不会撒谎;

2.  由于人类大脑不可直接读写,思想交流只能通过语言和文字;而计算机就可以传输多维、多媒体数据。而且随着传输速率的提升,计算机可以接收并处理每秒GB量级的数据,人类通讯则无法实现。

3.  人类通过“我请你看一场电影”的方式,来分享多元化的海量数据,且数据必须有意义才能对个体形成记忆,且该记忆每个个体都不一样。

4.  由于人类大脑的存储功能并不可靠,所以经常有“我忘了”这个说法;计算机则除非删除或者硬件错误,否则一般不会忘记。

由此所带来的语言问题,回到人类的世界看就非常有意思:为了取消彼此隔阂,我们需要线下、面对面进行交流,以便捕捉交流过程中的表情、语调、肢体语言等额外的信息。

以及,另一个重要的地方是,说话的速度决定了思考的速度!

为什么这么说呢?

尝试阅读一篇新文章。如果不采用速读,你一定是逐字逐词地读,从而知道它的意思,而且大多数人会在心里默读它。这时,由于你默读的速度约等于说话速度(默读就是心里读给自己),你的思想基本上就在这个速度了。

这个时候,你会发现,中文阅读的速度和英文是不一样的。中文由于基础字就有1000个,所以相当于你首先掌握了一个1000个字的编码系统,后边的识别系统相对就比较高效。所以中文对于初学者是非常不友好的:没有这基础的1000字,你基本上什么都不认识,所以门槛比较高。

英文呢?英文26个字母,掌握了你就进入了它的门了;后边也需要1000多个单词的日常词汇量,但这基本上就是一个基于26个字母的编码系统了。所以它的入门是很简单的,但是使用起来的效率相对低一些:你能拼读出来,但是有些组合如果你不知道,那就毫无意义。

英文的组合类型比如: Holmos,Hormone,Horror,三个单词分别是福尔摩斯,荷尔蒙,和恐怖;当你不知道编码规则时,它们读音相近,对人们理解他们却毫无意义。

类似这样的编码系统,计算机是0和1两个,英文是26个,韩文是21个元音和19个辅音,而中文是1000个基础字。这种编码能力,体现在日常应用中,就是同样内容的文字,中文只需要英文一半的长度就能对等表达。为了证明这一观点,我刚好拿了一份英文资料用百度翻译了一下:

                                             

大家可以看到,同样的字体,中文占的面积不到英文一半。

英文有句谚语:A picture is worth a thousand words.(一张图胜过千言万语)。而中文,天生就是一个字一张图,所以能够以更简洁、高效的方式,表达更加丰富的内涵。如果外国人能够“一目十行”,我们只需要一目五行就可以。

众所周知,人类读图的能力远胜符号编码的能力,而计算机恰恰相反。所以,汉字在儿童教学时,往往有对应的汉字变形图像来配合记忆。而英文,则一般只能一图一词。但是,汉字面对打字机时,这个困难就凸显出来了:26个大小写=52种,因此可以很容易实现打字;对汉字就是一个天文级的困难。这个困难也一直延续到了电脑发明后,北大王选发明汉字激光照排,才解决了汉字与计算机的兼容问题。


随着科技发展,我们目前已经处在一个人工智能跃跃欲试的时代。想象一下,当两个机器人相遇时,他们交流的速度会有多快?学习的速度是否受限于视觉输入(看书的速度)?

当计算机可以不眠不休地工作时,我们人类唯一的希望,是更加发挥人的优势,把人类的交流更深入地做下去。在这方面,显然中文这样的表意符号会更人性化、更为高效。而国际多元化的交流,目前仍然是英文更加通用一些。

https://www.evolving-science.com/intelligent-machines/artificial-intelligence-powerful-friend-which-safely-guarded-will-not-become-dreadful-foe-00605

就如我之前所提到的,所有的人类交流都带有信任成本,而信任在一个高度诚信、法治的环境中才是容易建立的。在缺乏诚信的环境中,培育信任就很难,交流成本陡然提升,效果大打折扣。所以,中文虽然表达高效,也需要我们共同建立诚信社会,才能从根本上把中文的高效性完完整整地表现出来。




https://blog.sciencenet.cn/blog-499502-1318840.html

上一篇:关于语言的杂想(二):中文与英文

1 王安良

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-7-1 22:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部