|
自2021年起,生成式人工智能(以下简称“生成式AI”)连续两年入选Gartner 《Hype Cycle for Artificial Intelligence》[1] ,被认为是未来重要的AI技术趋势。2022年以来,生成式AI产品不断涌现,生成内容模态多样,引起广泛的关注和讨论。2022年11月,OpenAI发布chatGPT[2],定义为优化对话语言模型(Optimizing Language Models for Dialogue),仅用2个月就创造了APP用户过亿的新记录。此前,APP用户破亿最快的记录是字节跳动TikTok的9个月,每个创造用户过亿时间记录的APP都成为了一个时代的符号,ChatGPT的的发布同样具有划时代的意义。
图:APP用户过亿时间表(数据来源:UBS / Yahoo Finance)
ChatGPT具备强大的对话能力和生成能力,可以回答后续问题、承认错误、挑战不正确的前提、拒绝不适当的请求,这意味着ChatGPT能够颠覆搜索行业,在智能客服、游戏、虚拟人等领域也将得到广泛应用,从ChatGPT到AIGC,AI已经成为新时代新的生产力。
一、ChatGPT发展现状
ChatGPT由大规模预训练语言模型GPT-3.5微调得来,在理解能力、结果准确性、识别非法与偏见能力上均能取得更优效果,不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现出强大的能力,还具有生成代码、调试代码、为代码生成注释的能力。ChatGPT发布后5天用户已超百万,而OpenAI之前发布的GPT-3用了将近两年的时间才突破100万用户。
ChatGPT相较于GPT-3具有支持多轮对话、易于修正、人机交互效果更好、更快、更高效等优势,更适合应用于人工智能客服、搜索引擎、智能客服、虚拟人、代码编程、文学创作等领域。微软目前整将ChatGPT整合进旗下搜索引擎必应(Bing),提高必应在搜索引擎市场的市占率;同时Chat-GPT功能引入Office,用于部分文本的生成和问答。
ChatGPT带动AIGC(AI-Generated Content)的革新。AIGC[3]指利用人工智能技术自动生成的内容,与此前Web1.0、Web2.0时代的UGC(用户生产内容)和PGC(专业生产内容)相比,代表人工智能构思内容的AIGC,是新一轮内容生产方式变革,而且AIGC内容在Web3.0时代也将出现指数级增长。ChatGPT模型的出现对于文字模态的AIGC 应用具有重要意义,未来,与图形模态的AIGC相结合,有望打造从文字描述到图片生成的AI创作辅助工具,对AI产业上下游产生重大影响[4] 。
国内生成式AI产品以语言生成类和视觉生成类为主,其他应用类型处于探索阶段。文本生成类产品如百度的“文心ERNIE3.0”,可实现小说诗歌创作、新闻内容生成、商业文案生成。音频生成产品如网易的“天音”可实现自动编曲。图片生成类应用如百度的“文心一格”,其创作出的作品效果接近人类作品。
同时,国内部分企业也陆续推出新工具和平台,可生成数字内容、合成数据等。华为云推出数字内容生产线MetaStudio,该平台具备3D模型制作、云渲染等能力,可用于虚拟直播、虚拟视频内容制作。中国移动研究院实现了GAN生成NFV相关合成数据技术,并逐步探索结构化数据生成技术的落地路径。声智科技融合语言和视觉生成,基于Azero AIoT开发框架,生成多轮智能交互数字人[5],并成功应用在2022年北京冬奥会和冬残奥会和北京国际马拉松,以及全国人大、故宫博物院、环球影城等重点场景。
国外生成式AI产品应用方向多样,现象级产品迅速获取大量用户。根据知名创业组织Antler的统计,截止2022年年底,海外生成式AI产品数量达到190余个,包括视频、音频、游戏、数据、搜索等多种类型应用。同时,2022年年底图片生成应用Midjourney官方Discord中的关注人数超过百万,ChatGPT上线后一周内用户数量已近百万。
生成式AI产品在交互设计中,更注重用户体验。目前生成式AI产品形态包含插件、API网页交互、客户端等。其中,API网页交互无需下载安装产品,在云端即可获得生成内容,如用户可在百度的“文心ERNIE 3.0”产品网页中输入提示词生成内容。同时,生成式AI技术与搜索产品融合后,匹配内容、意图理解表现更好。例如,用户使用论文阅读助手SciSpace时,无需指定关键词即可搜索和查找相关论文,可提升阅读论文效率。
表:AIGC应用场景及所处发展阶段
表:AIGC国内外典型应用
二、ChatGPT带来的影响
ChatGPT强大的内容生成能力,引起了业界普遍关注,也加速了人工智能行业从决策式/分析式AI(Discriminant/Analytical AI)到生成式AI (Generative AI)的演化。
图:决策式/分析式AI(Discriminant/Analytical AI) VS 生成式AI (Generative AI)
决策式AI:学习数据中的条件概率分布,根据已有数据进行分析、判断、预测,主要应用模型有用于推荐系统和风控系统的辅助决策、用于自动驾驶和机器人的决策智能体。
生成式AI:学习数据中的联合概率分布,并非简单分析已有数据而是学习归纳已有数据后进行演技创造,基于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题。
随着生成式AI技术的不断进步,生成模态不断更新,呈现多元化格局。按照生成模态划分,生成式AI产品分为文本生成(以ChatGPT为代表)、图片生成、代码生成和音频生成多个方向。2022年9月Meta发布自研视频生成大模型Make-A-Video;2022年11月,NVIDIA公司发布了3D模型生成工具Magic3D;同月WebAR软件平台解决方案商Geenee AR发布了AI WebAR内容创造套件RT3D AI SDK。生成模态的多元也推动了生成式AI的多行业应用。
图:生成式AI的多行业垂直应用
从机器辅助人跃迁到机器代替人。随着生成式AI的不断成熟,部分专业内容生产者将被替代。数据、算力的进一步提升将带来具有更强生成效果的AI,能够根据用户需求生成个性化定制内容终稿,并且AI生成内容达到专业内容生产者水平且具有独特新颖的创意,从而替代部分文字作者、翻译人员、插画创作者、配音人员、音乐制作人、视频编辑人员等等。
丰富数字内容供给侧供给。AIGC大幅度降低了数字内容生产的成本,打破了数字内容生产受到人类想象能力和知识水平的限制,广泛应用于文本生成、音频生成、图像生成、视频生成、跨模态生成及游戏领域,其广泛应用能够满足数字经济时代日益增长的数字内容供给需求。
创造新的生产力,带来巨大影响。生成式AI强调学习归纳后进行演绎创造,生成全新的内容,本质是对生产力的大幅度提升和创造,已催生了营销、设计、建筑和内容领域的创造性工作,并开始在生命科学、医疗、制造、材料科学、媒体、娱乐、汽车、航空航天进行初步应用,为各个领域带来巨大的生产力提升,在个人计算机、互联网、移动设备和云的规模上产生变革性的影响。
三、ChatGPT引发的思考
自1947年以来,AI领域取得的关键进展,(如Eliza、AlphaGo和chatGPT的发布),都是由西方主导,美国在AI技术发展的过程中不断进行颠覆性技术创新,尤其是最近十多年,更是建立先发优势和累加优势,逐步拉大中美在AI领域的差距。[6] -[7]
图:AI关键发展节点的符号产品
以chatGPT的发展历程为例:
2015年12月,OpenAI成立,探索大模型路线。
2017年6月,Google发布Transformer论文。
2018年6月,OpenAI发布GPT-1,参数量1.17亿,预训练数据量5GB。
2019年2月,OpenAI发布GPT-2,参数量15亿,预训练数据量40GB。
2020年5月,OpenAI发布GPT-3,参数量1750亿,预训练数据量45TB。
2022年11月,OpenAI发布chatGPT。
2023年2月,Google发布Bard。
从算力的角度看,以英伟达GPU的发展历程为例:
1999年,NVIDIA公司在发布其标志性产品GeForce256时,首次提出了GPU的概念。
2006年,NVIDIA公司推出了CUDA,这是一种通用并行计算平台和编程模型。
2017年,NVIDIA公司发布了全新Volta架构GPU—Tesla V100,这是训练chatGPT的GPU。
从AI重要分支ChatBot的发展历程来看:[7] -[10]
1966年,MIT发布聊天机器人ELIZA,主要用于辅助心理咨询。
2010年,Apple发布聊天机器人Siri,主要用在iPhone作为语音助手。
2015年,Amazon发布聊天机器人Alexa,主要用在智能音箱等智能硬件。
图:Chatbot的发展历程
回过头来看,国内也在追赶AI的热潮,在ChatBot方面快速跟进:
2015年,科大讯飞发布了AIUI,定义为人机交互服务新界面。
2016年,百度发布了DuerOS,定义为对话式人工智能操作系统。
2017年-2019年,小米发布了水滴平台,阿里发布了天猫精灵,腾讯发布了小微,微软发布了小冰,思必驰发布了DUI,这段时间的补贴竞争就是“百箱大战”。
2019年,声智发布了Azero 2.0,定义为多模态与多技能的AI开发框架并对外开放。
2023年,百度将发布“文心一言”,预计三月份完成内测面向公众开放,未来或将接入百度搜索。京东宣布推出产业版“ChatJD”,应用路线图包括一个平台、两个领域(零售和金融)、五个应用(内容生成、人机对话、用户意图理解、信息抽取、情感分类)。字节跳动AI实验室也在开展类似ChatGPT和AICG相关研发,未来或为PICO提供技术支持。阿里类ChatGPT产品目前也处于内测阶段,会与钉钉产品结合。
虽然国内科技巨头和垂类成长型AI公司在努力布局,但是,回到大模型这个主题,从2022年12月chatGPT发布时候的大模型现状来看,美国的进展更加迅猛和稳健。[11] -[15]
图:语言大模型的参数量对比
综上来看,我们要充分认识到我们在算法、模型、数据、算力等方面与美国的差异,这是几十年积累的差距,并有逐渐拉大的趋势,值得我们思考和警惕。
四、ChatGPT有关的建议[16]-[20]
虽然生成式AI行业发展迅速,覆盖数据模态不断扩展,生成内容愈发具有创造力、多元化。但是另一方面,生成式AI的产品能力仍存在不足,预计仍需要3~5年时间的监督学习才会真正对生产力产生根本性影响,当然数据合规性、安全性也需进一步规范。
另外,国内开源生态和应用研究将面临挑战。OpenAI在GPT-3之后所有的应用都不再开源,而是提供API,这对于国内跟随研究将产生直接影响。OpenAI这种API方式带动了国外创业公司的生态发展,并且非常重视对真实世界数据调用的迭代和反馈,这种飞轮对于国外公司是闭环提升,对国内产业则是潜在隐患,国内公司若基于OpenAI进行迭代,则会加速国外的研究和产业进展,并且始终让我国受制于美国公司,从而形成新一轮卡脖子问题。
1、充分认识差距,保持战略定力。充分认识到我国人工智能基础研究相对于美国的差距,要在质疑和焦虑等各种噪声中保持战略定力。人工智能自从诞生以后,每次浪潮都由欧美引领,自从2010年以后则由美国特别是企业研发机构引领,我国基本都是跟随研发而并没有重大创新突破,我们要对这种追赶并且挑战的现状充分认识,不能盲目自大也不能丢失信心,在各种噪声中保持对人工智能引领的数字经济信心。
2、加强大模型研究,探索多技能路线。持续加强对人工智能基础研究机构的改革、整合和支持,参考美国人工智能的产品导向思路加强大模型的联合攻关,同时鼓励探索大模型之外的更多技术路线。面对当前我们国内在数据多样性、一致性和标注质量方面的差距,以及算力等数字基础设施的不足,应该鼓励以小模型为基础的多技能技术路线更多落地场景。这样大模型和多技能至少两个技术路线同步并进,从各个方面来缩小与美国的差距。当然我们也要看到,美国主流的这两个技术路线之外,在基础研究方面更是探索小样本学习等更多技术路线。
图:多技能技术路线的示意
3、加快数据基建,推动数据共享。美国面向全球多传感数据和非结构化数据采集的能力,以及美国科技公司相比较我国科技公司数据采集的多样性,是美国人工智能领先的关键因素。我国科技公司主要关注于用户画像的采集和分析,并将此作为商业变现模式,反而在人工智能关注的声、光、电、热、力、磁等多传感数据以及程序代码等非结构化数据方面缺乏积累。我们很难短时间内在开源精神和开源社区方面超过美国,建议一方面加强我们自身的数据采集基础设施建设,另外一方面加快推动多传感数据和非结构化数据的确权与交易,另辟蹊径来实现国内大数据的原始积累,为我国人工智能的超越奠定基础。
4、健全数据标准,规范数据治理。建立国家多传感数据和非结构化数据的标准体系,鼓励各个行业数据采集系统之间的互联互通,消除国内各行业之间的数据孤岛现象和数据不一致的问题。加强对人工智能治理的研究和实践,充分评估生成式AI发展壮大之后,对于国内政治和社会生态的影响,特别是加强生成式AI对于个人精神领域影响的研究,要充分认识到新生产力的进步对于个人和社会的潜在影响。
5、拓宽政策范围,鼓励接力创新。持续扩大对人工智能产业的支持范围,借鉴美国人工智能以企业研发机构为主的经验,特别是美国不同企业接力贡献重大创新的案例,建议将产业政策和重大项目等扩大到新兴人工智能企业范围,鼓励更多以产品和市场导向为主的新兴人工智能企业接力创新。
6、加强人工智能治理,预防AIGC污染。AIGC的发展面临社会和伦理风险,如何规避相关风险,减少能源消耗,实现可持续发展,已引起国际社会的广泛关注。规避人工智能技术难以预测的危害,需要关注人工智能原则的运作,让原则更广泛,最终通过价值重设、软法律和精心设计的政策,将技术轨道推向可持续发展的道路。
本文由陈孝良和潘贝贝编辑整理,在此感谢为此文提供信息和资料的学者、媒体和作者,文中不足之处,欢迎批评指正。期待国内的人工智能研究和产业,欣欣向荣,蓬勃向上!
参考文献
[1] What's New in Artificial Intelligence from the 2022 Gartner Hype Cycle.
https://www.gartner.com/en/articles/what-s-new-in-artificial-intelligence-from-the-2022-gartner-hype-cycle
[2] Optimizing Language Models for Dialogue. https://openai.com/blog/chatgpt/.
[3] 人工智能生成内容(AIGC)白皮书(2022年)--中国信通院 http://www.caict.ac.cn/sytj/202209/t20220913_408835.htm
[4] 技术壁垒这么多,AIGC 凭什么爆火?https://www.leiphone.com/category/ai/SccUhi5mpLZRU73N.html
[5] Azero人工智能开发框架Multi-skilled AloT Framework
http://azero.soundai.com.cn/#/dashboard
[6] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. arXiv preprint arXiv:2203.02155, 2022.
[7] Arumugam D, Lee J K, Saskin S, et al. Deep reinforcement learning from policy-dependent human feedback[J]. arXiv preprint arXiv:1902.04257, 2019.
[8] Kaplan A, Haenlein M. Siri, Siri, in my hand: Who’s the fairest in the land? On the interpretations, illustrations, and implications of artificial intelligence[J]. Business horizons, 2019, 62(1): 15-25.
[9] Ram A, Prasad R, Khatri C, et al. Conversational ai: The science behind the alexa prize[J]. arXiv preprint arXiv:1801.03604, 2018.
[10] Hoy M B. Alexa, Siri, Cortana, and more: an introduction to voice assistants[J]. Medical reference services quarterly, 2018, 37(1): 81-88.
[11] Yuan S, Zhao H, Zhao S, et al. A Roadmap for Big Model[J]. arXiv preprint arXiv:2203.14101, 2022.
[12] Taddeo M, Floridi L. How AI can be a force for good[J]. Science, 2018, 361(6404): 751-752.
[13] Whang S E, Roh Y, Song H, et al. Data collection and quality challenges in deep learning: A data-centric ai perspective[J]. The VLDB Journal, 2023: 1-23.
[14] Huynh-The T, Pham Q V, Pham X Q, et al. Artificial intelligence for the metaverse: A survey[J]. Engineering Applications of Artificial Intelligence, 2023, 117: 105581.
[15] Janzing D, Minorics L, Blöbaum P. Feature relevance quantification in explainable AI: A causal problem[C]//International Conference on artificial intelligence and statistics. PMLR, 2020: 2907-2916.
[16] Yuan S, Zhao H, Zhao S, et al. A Roadmap for Big Model[J]. arXiv preprint arXiv:2203.14101, 2022.
[17] Ji R. A commentary of Multi-skilled AI in MIT Technology Review 2021[J]. Fundamental Research, 2021, 1(6): 844-845.
[18] How multi-skilled AI could chart a path to human-like intelligence. https://thenextweb.com/news/can-multi-skilled-ai-make-machines-more-intelligent.
[19] 'Multi-Skilled AI' Is The Best Term To Describe Artificial General Intelligence. https://www.eyerys.com/articles/people/1360640216/opinions/multi-skilled-ai-best-term-describe-artificial-general.
[20] AI armed with multiple senses could gain more flexible intelligence. https://www.technologyreview.com/2021/02/24/1018085/multimodal-ai-vision-language/.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 16:35
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社