Education的个人博客分享 http://blog.sciencenet.cn/u/Education 哲学,教育,计算机,金融工程。不分文理工科。

博文

ChatGPT技术原理

已有 7910 次阅读 2023-2-21 21:57 |个人分类:计算机|系统分类:科普集锦

   ChatGPT将海量的数据,与具有抽取与表达文字功能的Transformer模型结合,

  建立了大语言模型LLM,Large Language Model【3】。对于输入的句子,ChatGPT在这个

   具有上千亿参数的LLM作用下生成回复。

   这里结合本人的AI系列博文(见文末参考链接), 介绍ChatGPT的技术基础 及其演进。


一 . GPT的含义

GPT 表示Generative Pre-trained Transformer【10】.

G:Generative,中文意为生成性的,产生式的。就是说,ChatGPT会产生/生成新的文本/

文字/代码。

生成文字的技术不是ChatGPT独有的,而是建立在已有的AIGC——

AI generated Content技术之上。AIGC 除了生成文字,还可生成图像,音乐[8]。

AIGC 生成文字的技术再往前是NLP技术,Nature Language Processing.


BTW,在深度学习方法出现之前的传统AI,也是有产生式技术的,主要是用归纳,

演绎等逻辑推理,比如三段论逻辑推出新结论,但因为需要满足明确的数理逻辑条件,

不适合对不清晰数据资料的自动化处理。


至于自动编写程序代码的技术,也不是自ChatGPT开始,而是从Copilot就有[5].

还可以往前追溯到编译技术和代码自动生成技术。


 Pre-trained 表示要预训练一个(巨大的)神经网络模型【6】,详细一点说,就是利用

(人类标注过的)数据或者人类反馈强化学习【1】(Reinforcement Learning from 

Human Feedback的方法优化神经网络模型的参数。

模型训练好以后给它输入数据,它会给出AI(artificial Intelligence)意义上的输出。


Transformer 是一种基于seq2seq(序列到序列变换)的生成式神经网络模型【2】,

用于在ChatGPT里把一段文字(question)变换为另一段相关文字(answer)。



二. ChatGPT的发展路线【1,2,4,6,7】



                      ChatGPT多处利用和扩展了自然语言处理NLP的研发成果。



【1】科学网—强化学习是闭环控制在各种场景下的推广 - 徐明昆的博文 (sciencenet.cn)

【2】科学网—机器学习借助并行计算挖掘数据关联信息 - 徐明昆的博文 (sciencenet.cn)

【3】OpenAI公司官网

   [4]https://mp.weixin.qq.com/s/FPws8Gk18pW-TRcorlTczg 

   [5]如何评价 GitHub 的 Copilot? - 知乎 (zhihu.com)

【6】科学网—深度学习基本原理 - 徐明昆的博文 (sciencenet.cn)

【7】Chat GPT原理_GarsonW的博客-CSDN博客

[8]详解AIGC人工智能生成内容的原理 (baidu.com)

【9】低成本复制 ChatGPT 训练流程

【10】ChatGPT实现原理-电子发烧友网 (elecfans.com)





https://blog.sciencenet.cn/blog-537101-1377332.html

上一篇:名校的学历鄙视链
下一篇:工科理科化的倾向需扭转
收藏 IP: 223.72.63.*| 热度|

4 李升伟 蒋大和 杨正瓴 孙颉

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-27 08:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部