|
在理性和逻辑层面上,中文难以超越英文
摘录于李博闻的博文(ChatGPT知识信念、能力边界和哲学预言【3+4】)
(科学网链接地址: https://blog.sciencenet.cn/blog-3475429-1395192.html)
(科学网链接地址:https://blog.sciencenet.cn/blog-3475429-1395452.html)
一、语言构造世界
18世纪唯心主义哲学家贝克莱通过“存在即是被感知”强调了我们对语言的使用,决定了我们对事物的认识。在他看来,语言是认识世界、表达知识的途径。贝克莱的认识论反应了当时人们对语言的关注。同时,语言缺陷也受到哲学家们的重视,譬如休谟认为语言任意随性的使用会产生混乱,澄清语言用法才能把握我们的观念。同时代的莱布尼茨也持相同见解。莱布尼茨认为语言研究是思想研究的工具,需要使用“普遍语言”才能一劳永逸摆脱日常语言的困难。
西方古典哲学顶峰人物――康德,为哲学划定范围并指出了人类理性活动的界限:他指出(物自体)超越人类的认识的,是不可感知的;可以认识到的,都是感知到的。这种客观唯心主义深刻影响了后来哲学家们。如果从康德的观念出发,那么当人们追究思想时,更加可靠的出发点显然是具有公共性和内在结构的“语言”。沿着这个思路,皮尔士指出:“没有不依赖符号的思想”;弗雷格认为:“语言决定思想”;而竖起分析哲学大旗的罗素更是认为:改变说话的方式,就是改变我们对世界的认识方式。维特根斯坦在“逻辑图像理论”中,借助法庭辩论案例,给出“我们的语言就是外部世界的图像,即语言构造世界”。
二、ChatGTP的语言逻辑
如果是“语言构造世界”,那么“日常语言”当然无需预处理,可以直接被ChatGPT作为训练材料。这里回答两个与ChatGPT有关的问题:(1)按照日常经验,将句子分割为“词”的集合,将损失句子中的意义和逻辑。ChatGPT怎么敢用Token作为操作单元的?(2)为什么说中文环境,不可能产生ChatGPT?
ChatGPT将词元(Token)作为操作单元,词元可以表示一个或若干个英文单词、短语、句子甚至段落。本文的“单词”指英文单词。
在例句Today we are here to delve deeper into the fascinating world of philosophy中,“today”“todaywe”“todayweare”“todaywearehere”等连续性词串都可作词元。
无论ChatGPT何种设计,都建立在单词是意义和逻辑单元”的知识信念之上。只有这个命题成立,才可以用Token技术。
“单词是意义单元”的信念,与欧洲中世纪建立的“词项理论”有着密切联系。王路编译的《中世纪的词项理论》详尽介绍了这段历史,不同历史时期的西方语言学家和逻辑学家接力发展了西方“词项理论”,发明了“名词、形容词、主词、谓词、周延、指代”等术语,在赋予命题中的“词项”于“意义”同时,也建筑了现代西方语言和逻辑学大厦。
“单词是逻辑单元”的信念,可以追溯到古希腊德谟克利特的“原子论”,这样的想法一直在西方世界哲学史中延续,比如莱布尼茨的“单子论”、马赫的“要素一元论”等。罗素的“逻辑原子主义”指出所有的命题都可以化解为命题的组成部分,把事实还原成构成事实的关系。按照罗素的观点,today we are here…自然可以切分到单词而不损失意义、例句也可以还原成单词序列而不损失逻辑。
日常语言是有逻辑的!这是ChatGPT历史生成的重要基础。中文在理性和逻辑的层面,表现不如英语。ChatGPT的“母语”是英语。“逻辑”指帮助人类实现有效推理和论证的系统,一种“正确思维的规则集”。朱建平的《西方逻辑史研究:一个不应该遗忘的领域》提供了一个简明、清晰的“逻辑”发展历史纵览,同时为专业人员提供了详细的逻辑史书目清单。
就像华夏文明有“勾三股四”而无毕达哥拉斯定律,《墨经》为代表的中国古典逻辑停留在“经验的知识”阶段,没有能够发展至“科学的理论”。由于种种缘故,中国文化属于高语境文化,中国人的交际方式具有间接、含蓄、言谈踌躇等特点,交流过程使用的语言也更多借助非语言环境,比如那些不成文的传统习惯、不言而喻的价值观和公认的行为模式等,而西方逻辑传入中国距今不过120余年,这导致在理性和逻辑的层面上,中文难以超越英文。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 04:05
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社