博文

ChatGPT的现状、影响、启示和建议：大模型和多技能精选

已有 41553 次阅读 2023-2-14 10:08 |系统分类:科普集锦

自2021年起，生成式人工智能（以下简称“生成式AI”）连续两年入选Gartner 《Hype Cycle for Artificial Intelligence》^[1] ，被认为是未来重要的AI技术趋势。2022年以来，生成式AI产品不断涌现，生成内容模态多样，引起广泛的关注和讨论。2022年11月，OpenAI发布chatGPT^[2]，定义为优化对话语言模型（Optimizing Language Models for Dialogue），仅用2个月就创造了APP用户过亿的新记录。此前，APP用户破亿最快的记录是字节跳动TikTok的9个月，每个创造用户过亿时间记录的APP都成为了一个时代的符号，ChatGPT的的发布同样具有划时代的意义。

图：APP用户过亿时间表（数据来源：UBS / Yahoo Finance）

ChatGPT具备强大的对话能力和生成能力，可以回答后续问题、承认错误、挑战不正确的前提、拒绝不适当的请求，这意味着ChatGPT能够颠覆搜索行业，在智能客服、游戏、虚拟人等领域也将得到广泛应用，从ChatGPT到AIGC，AI已经成为新时代新的生产力。

一、ChatGPT发展现状

ChatGPT由大规模预训练语言模型GPT-3.5微调得来，在理解能力、结果准确性、识别非法与偏见能力上均能取得更优效果，不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现出强大的能力，还具有生成代码、调试代码、为代码生成注释的能力。ChatGPT发布后5天用户已超百万，而OpenAI之前发布的GPT-3用了将近两年的时间才突破100万用户。

ChatGPT相较于GPT-3具有支持多轮对话、易于修正、人机交互效果更好、更快、更高效等优势，更适合应用于人工智能客服、搜索引擎、智能客服、虚拟人、代码编程、文学创作等领域。微软目前整将ChatGPT整合进旗下搜索引擎必应（Bing），提高必应在搜索引擎市场的市占率；同时Chat-GPT功能引入Office，用于部分文本的生成和问答。

ChatGPT带动AIGC（AI-Generated Content）的革新。AIGC^[3]指利用人工智能技术自动生成的内容，与此前Web1.0、Web2.0时代的UGC（用户生产内容）和PGC（专业生产内容）相比，代表人工智能构思内容的AIGC，是新一轮内容生产方式变革，而且AIGC内容在Web3.0时代也将出现指数级增长。ChatGPT模型的出现对于文字模态的AIGC 应用具有重要意义，未来，与图形模态的AIGC相结合，有望打造从文字描述到图片生成的AI创作辅助工具，对AI产业上下游产生重大影响^[4]。

国内生成式AI产品以语言生成类和视觉生成类为主，其他应用类型处于探索阶段。文本生成类产品如百度的“文心ERNIE3.0”，可实现小说诗歌创作、新闻内容生成、商业文案生成。音频生成产品如网易的“天音”可实现自动编曲。图片生成类应用如百度的“文心一格”，其创作出的作品效果接近人类作品。

同时，国内部分企业也陆续推出新工具和平台，可生成数字内容、合成数据等。华为云推出数字内容生产线MetaStudio，该平台具备3D模型制作、云渲染等能力，可用于虚拟直播、虚拟视频内容制作。中国移动研究院实现了GAN生成NFV相关合成数据技术，并逐步探索结构化数据生成技术的落地路径。声智科技融合语言和视觉生成，基于Azero AIoT开发框架，生成多轮智能交互数字人^[5]，并成功应用在2022年北京冬奥会和冬残奥会和北京国际马拉松，以及全国人大、故宫博物院、环球影城等重点场景。

国外生成式AI产品应用方向多样，现象级产品迅速获取大量用户。根据知名创业组织Antler的统计，截止2022年年底，海外生成式AI产品数量达到190余个，包括视频、音频、游戏、数据、搜索等多种类型应用。同时，2022年年底图片生成应用Midjourney官方Discord中的关注人数超过百万，ChatGPT上线后一周内用户数量已近百万。

生成式AI产品在交互设计中，更注重用户体验。目前生成式AI产品形态包含插件、API网页交互、客户端等。其中，API网页交互无需下载安装产品，在云端即可获得生成内容，如用户可在百度的“文心ERNIE 3.0”产品网页中输入提示词生成内容。同时，生成式AI技术与搜索产品融合后，匹配内容、意图理解表现更好。例如，用户使用论文阅读助手SciSpace时，无需指定关键词即可搜索和查找相关论文，可提升阅读论文效率。

表：AIGC应用场景及所处发展阶段

表：AIGC国内外典型应用

二、ChatGPT带来的影响

ChatGPT强大的内容生成能力，引起了业界普遍关注，也加速了人工智能行业从决策式/分析式AI（Discriminant/Analytical AI）到生成式AI （Generative AI）的演化。企业微信截图_16763387369091.png

图：决策式/分析式AI（Discriminant/Analytical AI） VS 生成式AI （Generative AI）

决策式AI：学习数据中的条件概率分布，根据已有数据进行分析、判断、预测，主要应用模型有用于推荐系统和风控系统的辅助决策、用于自动驾驶和机器人的决策智能体。

生成式AI：学习数据中的联合概率分布，并非简单分析已有数据而是学习归纳已有数据后进行演技创造，基于历史进行模仿式、缝合式创作，生成了全新的内容，也能解决判别问题。

随着生成式AI技术的不断进步，生成模态不断更新，呈现多元化格局。按照生成模态划分，生成式AI产品分为文本生成（以ChatGPT为代表）、图片生成、代码生成和音频生成多个方向。2022年9月Meta发布自研视频生成大模型Make-A-Video；2022年11月，NVIDIA公司发布了3D模型生成工具Magic3D；同月WebAR软件平台解决方案商Geenee AR发布了AI WebAR内容创造套件RT3D AI SDK。生成模态的多元也推动了生成式AI的多行业应用。

图：生成式AI的多行业垂直应用

从机器辅助人跃迁到机器代替人。随着生成式AI的不断成熟，部分专业内容生产者将被替代。数据、算力的进一步提升将带来具有更强生成效果的AI，能够根据用户需求生成个性化定制内容终稿，并且AI生成内容达到专业内容生产者水平且具有独特新颖的创意，从而替代部分文字作者、翻译人员、插画创作者、配音人员、音乐制作人、视频编辑人员等等。

丰富数字内容供给侧供给。AIGC大幅度降低了数字内容生产的成本，打破了数字内容生产受到人类想象能力和知识水平的限制，广泛应用于文本生成、音频生成、图像生成、视频生成、跨模态生成及游戏领域，其广泛应用能够满足数字经济时代日益增长的数字内容供给需求。

创造新的生产力，带来巨大影响。生成式AI强调学习归纳后进行演绎创造，生成全新的内容，本质是对生产力的大幅度提升和创造，已催生了营销、设计、建筑和内容领域的创造性工作，并开始在生命科学、医疗、制造、材料科学、媒体、娱乐、汽车、航空航天进行初步应用，为各个领域带来巨大的生产力提升，在个人计算机、互联网、移动设备和云的规模上产生变革性的影响。

三、ChatGPT引发的思考

自1947年以来，AI领域取得的关键进展，（如Eliza、AlphaGo和chatGPT的发布），都是由西方主导，美国在AI技术发展的过程中不断进行颠覆性技术创新，尤其是最近十多年，更是建立先发优势和累加优势，逐步拉大中美在AI领域的差距。^{[6] -[7]}

图：AI关键发展节点的符号产品

以chatGPT的发展历程为例：

2015年12月，OpenAI成立，探索大模型路线。

2017年6月，Google发布Transformer论文。

2018年6月，OpenAI发布GPT-1，参数量1.17亿，预训练数据量5GB。

2019年2月，OpenAI发布GPT-2，参数量15亿，预训练数据量40GB。

2020年5月，OpenAI发布GPT-3，参数量1750亿，预训练数据量45TB。

2022年11月，OpenAI发布chatGPT。

2023年2月，Google发布Bard。

从算力的角度看，以英伟达GPU的发展历程为例：

1999年，NVIDIA公司在发布其标志性产品GeForce256时，首次提出了GPU的概念。

2006年，NVIDIA公司推出了CUDA，这是一种通用并行计算平台和编程模型。

2017年，NVIDIA公司发布了全新Volta架构GPU—Tesla V100，这是训练chatGPT的GPU。

从AI重要分支ChatBot的发展历程来看：^{[7] -[10]}

1966年，MIT发布聊天机器人ELIZA，主要用于辅助心理咨询。

2010年，Apple发布聊天机器人Siri，主要用在iPhone作为语音助手。

2015年，Amazon发布聊天机器人Alexa，主要用在智能音箱等智能硬件。

图：Chatbot的发展历程

回过头来看，国内也在追赶AI的热潮，在ChatBot方面快速跟进：

2015年，科大讯飞发布了AIUI，定义为人机交互服务新界面。

2016年，百度发布了DuerOS，定义为对话式人工智能操作系统。

2017年-2019年，小米发布了水滴平台，阿里发布了天猫精灵，腾讯发布了小微，微软发布了小冰，思必驰发布了DUI，这段时间的补贴竞争就是“百箱大战”。

2019年，声智发布了Azero 2.0，定义为多模态与多技能的AI开发框架并对外开放。

2023年，百度将发布“文心一言”，预计三月份完成内测面向公众开放，未来或将接入百度搜索。京东宣布推出产业版“ChatJD”，应用路线图包括一个平台、两个领域（零售和金融）、五个应用（内容生成、人机对话、用户意图理解、信息抽取、情感分类）。字节跳动AI实验室也在开展类似ChatGPT和AICG相关研发，未来或为PICO提供技术支持。阿里类ChatGPT产品目前也处于内测阶段，会与钉钉产品结合。

虽然国内科技巨头和垂类成长型AI公司在努力布局，但是，回到大模型这个主题，从2022年12月chatGPT发布时候的大模型现状来看，美国的进展更加迅猛和稳健。^{[11] -[15]}

图：语言大模型的参数量对比

综上来看，我们要充分认识到我们在算法、模型、数据、算力等方面与美国的差异，这是几十年积累的差距，并有逐渐拉大的趋势，值得我们思考和警惕。

四、ChatGPT有关的建议^[16]-[20]

虽然生成式AI行业发展迅速，覆盖数据模态不断扩展，生成内容愈发具有创造力、多元化。但是另一方面，生成式AI的产品能力仍存在不足，预计仍需要3~5年时间的监督学习才会真正对生产力产生根本性影响，当然数据合规性、安全性也需进一步规范。

另外，国内开源生态和应用研究将面临挑战。OpenAI在GPT-3之后所有的应用都不再开源，而是提供API，这对于国内跟随研究将产生直接影响。OpenAI这种API方式带动了国外创业公司的生态发展，并且非常重视对真实世界数据调用的迭代和反馈，这种飞轮对于国外公司是闭环提升，对国内产业则是潜在隐患，国内公司若基于OpenAI进行迭代，则会加速国外的研究和产业进展，并且始终让我国受制于美国公司，从而形成新一轮卡脖子问题。

1、充分认识差距，保持战略定力。充分认识到我国人工智能基础研究相对于美国的差距，要在质疑和焦虑等各种噪声中保持战略定力。人工智能自从诞生以后，每次浪潮都由欧美引领，自从2010年以后则由美国特别是企业研发机构引领，我国基本都是跟随研发而并没有重大创新突破，我们要对这种追赶并且挑战的现状充分认识，不能盲目自大也不能丢失信心，在各种噪声中保持对人工智能引领的数字经济信心。

2、加强大模型研究，探索多技能路线。持续加强对人工智能基础研究机构的改革、整合和支持，参考美国人工智能的产品导向思路加强大模型的联合攻关，同时鼓励探索大模型之外的更多技术路线。面对当前我们国内在数据多样性、一致性和标注质量方面的差距，以及算力等数字基础设施的不足，应该鼓励以小模型为基础的多技能技术路线更多落地场景。这样大模型和多技能至少两个技术路线同步并进，从各个方面来缩小与美国的差距。当然我们也要看到，美国主流的这两个技术路线之外，在基础研究方面更是探索小样本学习等更多技术路线。

企业微信截图_16763379743549.png

图：多技能技术路线的示意

3、加快数据基建，推动数据共享。美国面向全球多传感数据和非结构化数据采集的能力，以及美国科技公司相比较我国科技公司数据采集的多样性，是美国人工智能领先的关键因素。我国科技公司主要关注于用户画像的采集和分析，并将此作为商业变现模式，反而在人工智能关注的声、光、电、热、力、磁等多传感数据以及程序代码等非结构化数据方面缺乏积累。我们很难短时间内在开源精神和开源社区方面超过美国，建议一方面加强我们自身的数据采集基础设施建设，另外一方面加快推动多传感数据和非结构化数据的确权与交易，另辟蹊径来实现国内大数据的原始积累，为我国人工智能的超越奠定基础。

4、健全数据标准，规范数据治理。建立国家多传感数据和非结构化数据的标准体系，鼓励各个行业数据采集系统之间的互联互通，消除国内各行业之间的数据孤岛现象和数据不一致的问题。加强对人工智能治理的研究和实践，充分评估生成式AI发展壮大之后，对于国内政治和社会生态的影响，特别是加强生成式AI对于个人精神领域影响的研究，要充分认识到新生产力的进步对于个人和社会的潜在影响。

5、拓宽政策范围，鼓励接力创新。持续扩大对人工智能产业的支持范围，借鉴美国人工智能以企业研发机构为主的经验，特别是美国不同企业接力贡献重大创新的案例，建议将产业政策和重大项目等扩大到新兴人工智能企业范围，鼓励更多以产品和市场导向为主的新兴人工智能企业接力创新。

6、加强人工智能治理，预防AIGC污染。AIGC的发展面临社会和伦理风险，如何规避相关风险，减少能源消耗，实现可持续发展，已引起国际社会的广泛关注。规避人工智能技术难以预测的危害，需要关注人工智能原则的运作，让原则更广泛，最终通过价值重设、软法律和精心设计的政策，将技术轨道推向可持续发展的道路。

本文由陈孝良和潘贝贝编辑整理，在此感谢为此文提供信息和资料的学者、媒体和作者，文中不足之处，欢迎批评指正。期待国内的人工智能研究和产业，欣欣向荣，蓬勃向上！

参考文献

[1] What's New in Artificial Intelligence from the 2022 Gartner Hype Cycle.

https://www.gartner.com/en/articles/what-s-new-in-artificial-intelligence-from-the-2022-gartner-hype-cycle

[2] Optimizing Language Models for Dialogue. https://openai.com/blog/chatgpt/.

[3] 人工智能生成内容（AIGC）白皮书（2022年）--中国信通院 http://www.caict.ac.cn/sytj/202209/t20220913_408835.htm

[4] 技术壁垒这么多，AIGC 凭什么爆火？https://www.leiphone.com/category/ai/SccUhi5mpLZRU73N.html

[5] Azero人工智能开发框架Multi-skilled AloT Framework

http://azero.soundai.com.cn/#/dashboard

[6] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. arXiv preprint arXiv:2203.02155, 2022.

[7] Arumugam D, Lee J K, Saskin S, et al. Deep reinforcement learning from policy-dependent human feedback[J]. arXiv preprint arXiv:1902.04257, 2019.

[8] Kaplan A, Haenlein M. Siri, Siri, in my hand: Who’s the fairest in the land? On the interpretations, illustrations, and implications of artificial intelligence[J]. Business horizons, 2019, 62(1): 15-25.

[9] Ram A, Prasad R, Khatri C, et al. Conversational ai: The science behind the alexa prize[J]. arXiv preprint arXiv:1801.03604, 2018.

[10] Hoy M B. Alexa, Siri, Cortana, and more: an introduction to voice assistants[J]. Medical reference services quarterly, 2018, 37(1): 81-88.

[11] Yuan S, Zhao H, Zhao S, et al. A Roadmap for Big Model[J]. arXiv preprint arXiv:2203.14101, 2022.

[12] Taddeo M, Floridi L. How AI can be a force for good[J]. Science, 2018, 361(6404): 751-752.

[13] Whang S E, Roh Y, Song H, et al. Data collection and quality challenges in deep learning: A data-centric ai perspective[J]. The VLDB Journal, 2023: 1-23.

[14] Huynh-The T, Pham Q V, Pham X Q, et al. Artificial intelligence for the metaverse: A survey[J]. Engineering Applications of Artificial Intelligence, 2023, 117: 105581.

[15] Janzing D, Minorics L, Blöbaum P. Feature relevance quantification in explainable AI: A causal problem[C]//International Conference on artificial intelligence and statistics. PMLR, 2020: 2907-2916.

[16] Yuan S, Zhao H, Zhao S, et al. A Roadmap for Big Model[J]. arXiv preprint arXiv:2203.14101, 2022.

[17] Ji R. A commentary of Multi-skilled AI in MIT Technology Review 2021[J]. Fundamental Research, 2021, 1(6): 844-845.

[18] How multi-skilled AI could chart a path to human-like intelligence. https://thenextweb.com/news/can-multi-skilled-ai-make-machines-more-intelligent.

[19] 'Multi-Skilled AI' Is The Best Term To Describe Artificial General Intelligence. https://www.eyerys.com/articles/people/1360640216/opinions/multi-skilled-ai-best-term-describe-artificial-general.

[20] AI armed with multiple senses could gain more flexible intelligence. https://www.technologyreview.com/2021/02/24/1018085/multimodal-ai-vision-language/.

转载本文请联系原作者获取授权，同时请注明本文来自陈孝良科学网博客。
链接地址：https://blog.sciencenet.cn/blog-1375795-1376176.html

上一篇：声纹识别技术的现状、局限与趋势
下一篇：聊天机器人简史:从 ELIZA 到 ChatGPT

收藏 IP: 171.84.1.*| 热度|

陈孝良的个人专栏分享 http://blog.sciencenet.cn/u/brygid 谈谈声学，聊聊智能

博文

ChatGPT的现状、影响、启示和建议：大模型和多技能精选

当前推荐数：19 推荐人：许培扬 李升伟 蒋大和 黄朝琴 姬扬 李毅伟 张学文 彭真明 崔锦华 沙见浩 李剑超 冯兆东 黄永义 孟维琦 刘钢 陈孝良 王启云 王林平 潘发勤

该博文允许注册用户评论请点击登录评论 (13 个评论)

陈孝良

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

陈孝良的个人专栏分享 http://blog.sciencenet.cn/u/brygid 谈谈声学，聊聊智能

博文

ChatGPT的现状、影响、启示和建议：大模型和多技能 精选

当前推荐数：19 推荐人： 许培扬 李升伟 蒋大和 黄朝琴 姬扬 李毅伟 张学文 彭真明 崔锦华 沙见浩 李剑超 冯兆东 黄永义 孟维琦 刘钢 陈孝良 王启云 王林平 潘发勤

该博文允许注册用户评论 请点击登录 评论 (13 个评论)

陈孝良

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

ChatGPT的现状、影响、启示和建议：大模型和多技能精选

当前推荐数：19 推荐人：许培扬李升伟蒋大和黄朝琴姬扬李毅伟张学文彭真明崔锦华沙见浩李剑超冯兆东黄永义孟维琦刘钢陈孝良王启云王林平潘发勤

该博文允许注册用户评论请点击登录评论 (13 个评论)