博文

从人类种群知识库的进化看大模型的未来趋势

已有 1584 次阅读 2023-9-16 00:05 |系统分类:科研笔记

2022年11月以来，以ChatGPT为代表的大模型成为世界数字科技领域的新热点。在不到一年时间里全球的大模型数量已经超过百个，从全球已经发布的大模型分布来看，中美两国数量合计占全球总数的超 80%，据不完全统计，目前国内发布的大模型已经超过100个。

近日，腾讯推出了混元大模型，主要特点包括全链路自研、拥有超千亿参数规模、预训练语料超2万亿tokens，具备强大的中文创作能力、复杂语境下的逻辑推理能力，以及可靠的任务执行能力，这是7月份Meta推出开源大模型Llama 2之后，具有万物互联产品属性的世界级科技公司推出的又一个大模型产品。

由于万物互联平台可以实现人与人、人与物、物与物关联与交互，这使得相关平台企业拥有了更为丰富的智能技术应用场景，面对风起云涌的大模型浪潮，我们提出人类种群知识库从外化、索引化、智能化到万物互联化对大模型的发展将起到重要推动作用，并据此从更深层次分析大模型产生的根源和未来演化路径。

人类种群知识库发展的四个阶段

我们在《崛起的超级智能:互联网大脑如何影响科技未来》一书中提出，生物的竞争本质上是种群知识库的竞争。在过去的几亿年里，恐龙因为灭绝导致种群知识库消失为0，鲨鱼一直保持在海洋中游荡，种群知识库没有发生大的变化，熊猫因为趋于灭绝从而种群知识库不断萎缩。这里的种群知识库是指一个种群在生存和发展过程中理解世界、改造世界产生的知识总量。

人类种群知识库的外化

在过去的200万年中，人类的知识和智慧始终在不断地发展和积累。尤其是在近几百年中，随着蒸汽机、铁路、航空和核能等技术的出现，我们的种群知识库经历了前所未有的增长。而互联网的出现，尤其是万维网的诞生，标志着人类第一次将种群知识库系统地外化出去，形成一个基于网络的庞大知识存储系统。这进一步推动了人类种群知识库的快速积累和传播，尤其在21世纪，让我们见证了大量新的科技和概念的涌现，其中最为显著的便是大数据的兴起。

人类种群知识库的索引化

随着互联网上知识信息的爆炸性增长，如何有效地索引和管理以万维网信息为代表的人类种群知识库逐渐成为20世纪90年代的一个紧迫问题。为此，搜索引擎在那个时期迎来了快速的发展，其中谷歌、百度、微软、搜狗等都是出色的代表。这些搜索引擎通过网络蜘蛛技术收录互联网页面，构建了一个包含各网站信息、关键字、标题、描述、URL等内容的庞大知识库。用户可以通过这些索引快速而准确地检索到所需的信息。因此，搜索引擎的崛起不仅仅是技术进步，更是以互联网知识为代表的人类种群知识库更有条理、有逻辑地整合和索引在一起的内在需求体现。

人类种群知识库的智能化

随着互联网公共知识的全面索引化，我们见证了搜索引擎公司，如谷歌和百度，努力将以互联网为代表的人类种群知识库智能化的趋势。特别是在21世纪初，谷歌提出了知识图谱、建立了谷歌图书馆和谷歌学术，这些努力都显示了它对互联网知识库进行深度智能化的决心。2015年，谷歌旗下的AlphaGo战胜了人类围棋冠军，这不仅让人工智能重新受到关注，而且进一步加速了人类种群知识库的智能化进程。到了2022年，OpenAI的ChatGPT的成功推出标志着人类种群知识库从索引化到智能化的重大进步。然而，这一成功背后有谷歌提出的Transformer模型的巨大贡献，并得到了微软通过其Bing搜索引擎提供的庞大数据和资金支持。与此同时，在中国，百度、奇虎360和前搜狗创始人王小川也推出了自己的大模型，并在多项评测中获得了显著的成果。这些大模型的崛起不仅反映了搜索引擎技术的进步，而且预示着人类种群知识库逐渐成为一个具象的智能体出现在我们面前。

人类种群知识库的万物互联化

大模型刚刚兴起，人类的种群知识库还处在智能化的初期，继续提升智能水平是当前大模型的重要发展目标，然而，从长远的趋势来看，这些大模型将会被整合到“万物互联”的平台中。这样做的目的是让大模型能够更好地与各种人、物、系统连接和协作，进而为人类带来更多的应用场景和便利。如果不能做到这一点，就会出现“大模型孤岛效应”，大模型的使用场景将会受限，影响后续的发展。目前，为万物互联提供支持的平台包括Meta的Facebook和腾讯的微信、QQ等，它们已经连接了大量用户，同时连接的智能系统和设备也在快速增长。如果大模型能够加入这些万物互联的平台，将会产生出各种丰富的应用场景，例如大模型参与团队的集体决策，通过万物互联平台协助人类对各种智能设备进行管控，作为智能角色参与到人、物、系统的协同工作流程中等等，除了腾讯和Meta的大模型，为了避免孤岛效应，我们判断全球数百个大模型在未来也会逐步加入到各种万物互联的平台中为人类提供服务。

从人类种群知识库的演化趋势看，大模型加入到万物互联平台，拥有丰富的应用场景是未来竞争的重点之一。在这个过程中，如同人类并不需要太多搜索引擎一样，作为搜索引擎的升级版，人类也同样不会需要过多的大模型提供同质的智力服务。因此，它们也会不断相互竞争，完成大模型之间的融合与吞并，最终形成一个或若干通用大模型通过万物互联网平台为人类提供统一的服务。更多大模型或者在竞争中消失，或者转化为更为专业垂直的大模型应用在产业领域。当然在这个过程中，如果大模型的竞争发生在万物互联和万物交互的平台上，那些拥有主场优势的平台企业将会具有更强的竞争优势。

作者：刘锋中国科学院虚拟经济与数据科学研究中心研究组成员、中科数字大脑研究院院长，中国指挥与控制学会城市大脑专委会副主任兼秘书长

转载本文请联系原作者获取授权，同时请注明本文来自刘锋科学网博客。
链接地址：https://blog.sciencenet.cn/blog-39263-1402780.html

上一篇：监管生成式人工智能的建议，将重大探索的压力分散给全社会承担
下一篇：图解智能和意识基本原理的“飞行模型”

收藏 IP: 123.122.160.*| 热度|

当前推荐数：2 推荐人：武夷山 郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

刘锋

扫一扫，分享此博文

互联网进化论-刘锋分享 http://blog.sciencenet.cn/u/liufeng

博文

从人类种群知识库的进化看大模型的未来趋势

当前推荐数：2 推荐人：武夷山 郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)

刘锋

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

互联网进化论-刘锋分享 http://blog.sciencenet.cn/u/liufeng

博文

从人类种群知识库的进化看大模型的未来趋势

当前推荐数：2 推荐人： 武夷山 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

刘锋

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：2 推荐人：武夷山郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)