|
本文回答ChatGPT两个问题:
1.按照日常经验,将句子分割为“词”的集合,将损失句子中的意义和逻辑。ChatGPT怎么敢用Token作为操作单元的?
2.为什么说中文环境,不可能产生ChatGPT?
ChatGPT将词元(Token)作为操作单元,词元可以表示一个或若干个英文单词、短语、句子甚至段落。本文的“单词”指英文单词。
在例句 Today we are here to delve deeper into the fascinating world of philosophy 中,
“today”“todaywe”“todayweare”“todaywearehere”等连续性词串都可作词元。
无论ChatGPT何种设计,都建立在单词是意义和逻辑单元”的知识信念之上。只有这个命题成立,才可以用Token技术。
“单词是意义单元”的信念,与欧洲中世纪建立的“词项理论”有着密切联系。王路编译的《中世纪的词项理论》详尽介绍了这段历史,不同历史时期的西方语言学家和逻辑学家接力发展了西方“词项理论”,发明了“名词、形容词、主词、谓词、周延、指代”等术语,在赋予命题中的“词项”于“意义”同时,也建筑了现代西方语言和逻辑学大厦。
“单词是逻辑单元”的信念,可以追溯到古希腊德谟克利特的“原子论”,这样的想法一直在西方世界哲学史中延续,比如莱布尼茨的“单子论”、马赫的“要素一元论”等。罗素的“逻辑原子主义”指出所有的命题都可以化解为命题的组成部分,把事实还原成构成事实的关系。按照罗素的观点,today we are here…自然可以切分到单词而不损失意义、例句也可以还原成单词序列而不损失逻辑。
我们可以清晰感受到知识信念的建立。
日常语言有逻辑!这是ChatGPT历史生成的重要基础。中文在理性和逻辑的层面,表现不如英语。
ChatGPT的“母语”是英语。“逻辑”指帮助人类实现有效推理和论证的系统,一种“正确思维的规则集”。朱建平的《西方逻辑史研究:一个不应该遗忘的领域》提供了一个简明、清晰的“逻辑”发展历史纵览,同时为专业人员提供了详细的逻辑史书目清单。
就像华夏文明有“勾三股四”而无毕达哥拉斯定律,《墨经》为代表的中国古典逻辑停留在“经验的知识”阶段,没有能够发展至“科学的理论”。由于种种缘故,中国文化属于高语境文化,中国人的交际方式具有间接、含蓄、言谈踌躇等特点,交流过程使用的语言也更多借助非语言环境,比如那些不成文的传统习惯、不言而喻的价值观和公认的行为模式等,而西方逻辑传入中国距今不过120余年,这导致在理性和逻辑的层面,中文难以超越英文。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 10:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社