||
ChatGPT将海量的数据,与具有抽取与表达文字功能的Transformer模型结合,
建立了大语言模型LLM,Large Language Model【3】。对于输入的句子,ChatGPT在这个
具有上千亿参数的LLM作用下生成回复。
这里结合本人的AI系列博文(见文末参考链接), 介绍ChatGPT的技术基础 及其演进。
一 . GPT的含义
GPT 表示Generative Pre-trained Transformer【10】.
G:Generative,中文意为生成性的,产生式的。就是说,ChatGPT会产生/生成新的文本/
文字/代码。
生成文字的技术不是ChatGPT独有的,而是建立在已有的AIGC——
AI generated Content技术之上。AIGC 除了生成文字,还可生成图像,音乐[8]。
AIGC 生成文字的技术再往前是NLP技术,Nature Language Processing.
BTW,在深度学习方法出现之前的传统AI,也是有产生式技术的,主要是用归纳,
演绎等逻辑推理,比如三段论逻辑推出新结论,但因为需要满足明确的数理逻辑条件,
不适合对不清晰数据资料的自动化处理。
至于自动编写程序代码的技术,也不是自ChatGPT开始,而是从Copilot就有[5].
还可以往前追溯到编译技术和代码自动生成技术。
Pre-trained 表示要预训练一个(巨大的)神经网络模型【6】,详细一点说,就是利用
(人类标注过的)数据或者人类反馈强化学习【1】(Reinforcement Learning from
Human Feedback)的方法优化神经网络模型的参数。
模型训练好以后给它输入数据,它会给出AI(artificial Intelligence)意义上的输出。
Transformer 是一种基于seq2seq(序列到序列变换)的生成式神经网络模型【2】,
用于在ChatGPT里把一段文字(question)变换为另一段相关文字(answer)。
二. ChatGPT的发展路线【1,2,4,6,7】
ChatGPT多处利用和扩展了自然语言处理NLP的研发成果。
【1】科学网—强化学习是闭环控制在各种场景下的推广 - 徐明昆的博文 (sciencenet.cn)
【2】科学网—机器学习借助并行计算挖掘数据关联信息 - 徐明昆的博文 (sciencenet.cn)
【3】OpenAI公司官网
[4]https://mp.weixin.qq.com/s/FPws8Gk18pW-TRcorlTczg
[5]如何评价 GitHub 的 Copilot? - 知乎 (zhihu.com)
【6】科学网—深度学习基本原理 - 徐明昆的博文 (sciencenet.cn)
【7】Chat GPT原理_GarsonW的博客-CSDN博客
[8]详解AIGC人工智能生成内容的原理 (baidu.com)
【10】ChatGPT实现原理-电子发烧友网 (elecfans.com)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 08:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社