|
英国学者李约瑟是中国人民的老朋友,他最大的贡献之一是首次提出了中国古代四大发明的概念,在近代他也跟很多文化名人都有交往。李约瑟博士在编著《中国科学技术史》时提出了以下的问题 “中国古代对人类科技发展做出了很多重要贡献,但为什么科学和工业革命没有在近代的中国发生”。
关于该问题已经有很多研究,讨论李约瑟之问不是本文的目的。我的观点是李约瑟之问与我们现在发展的语言大模型(LLM)实有共通之处。
大模型完美符合中国古代知识分子的理想形象
如果用四个字概括语言大模型,那就是博闻强识。按照礼记的说法“博闻强识而让,敦善行而不怠,谓之君子”,或者三国演义里讲王粲 “博闻强记,人皆不及”。现在的语言大模型在预训练中已经穷尽了互联网上所能找到的所有知识,熟悉一百多种语言,没有不涉及的领域和行业,是真正的博闻。在训练中,这些知识通过next token prediction的任务被压缩到神经网络的连接强度中。由于互联网上的知识出现次数往往多于一次,所以也能够形成有效的记忆,这就是强识。根据现在的研究大约是一个parameter能存储1bit的信息。那目前开源最大的LLama 405B就是储存了4千亿bit的信息。
过去包含现在的答案
按照我对中国传统文化的粗浅理解,最理想的时代应该是尧舜禹三代。所谓三代以降,礼乐崩坏。制度,仪轨和社会的不公都应该从过去(三代)寻找答案。这种对过去黄金时代的推崇在其他文明的典籍中也有体现。语言大模型也是从已有的知识中寻找答案,甚至这些知识都会有一个明确的time stamp,也就是训练数据的收尾时间。不可否认,现在比较新比较好的模型已经体现出一定的创造性,但这种创造性更多还是已有的概念和研究领域的连接,可能在设计研究题目或者学习不同领域知识上会有所帮助。但就我个人观察,这些模型还不能产生人类可以理解的全新的概念,并基于这些概念进行有创造力和实际价值的研究探索。即使是最新的o1模型对chain of thought的优化,也是让模型更好的利用已有的概念,知识和逻辑系统。
至少我个人认为,李约瑟之问同样适用于大语言模型。甚至李约瑟之问的一些思考没准可以联系到大模型的研究。这并不是我要贬低中国传统文化或者已有的语言模型,但这可能是古今有趣的映照,传统文化的“圣人”似乎借大模型的躯壳出现在21世纪。倘若一个人或者机器真的掌握了世上所有的知识,他/它又能为他人创造多少福祉。“圣人出而四海一”,希望不是一个美好的愿望。
9月22日于北京草就。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 14:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社