Chenfiona的个人博客分享 http://blog.sciencenet.cn/u/Chenfiona

博文

复旦邱锡鹏团队 | MOSS: 一个开源的对话式大语言模型

已有 235 次阅读 2024-6-4 17:28 |个人分类:好文推荐|系统分类:论文交流

屏幕截图 2024-06-04 171644.png

在2022年底,ChatGPT一经发布,便迅速成为全球热点话题。但其技术细节未被公开,这也引发了公众对中美在人工智能领域技术差异的关注和担忧。复旦大学的邱锡鹏团队于2023年2月20日发布了对话式大语言模型MOSS,并公开其技术路线,引起了学术界和工业界的广泛关注。MOSS的发布是一个重要的里程碑,展示了在资源受限的情况下构建高效大型语言模型的可能性,还为全球研究者和开发者提供了重要的技术参考和实践经验,也提升了国人研发大语言模型的信心。MOSS是一个160亿参数的开源语言模型,这使它在处理与人类的多轮交互时具备高度的灵活性和执行各种指令的能力。文章详细阐述了MOSS在研发过程中的各项技术挑战和解决方案,包括预训练、监督微调和模型对齐等关键步骤。此外,文章还深入探讨了MOSS团队在早期大语言模型研发过程中的思考和方法论,充分反映了该团队对于前沿科技的深刻洞察。

题目.png

全文下载:

MOSS: An Open Conversational Large Language Model

Tianxiang Sun, Xiaotian Zhang, Zhengfu He, Peng Li, Qinyuan Cheng, Xiangyang Liu, Hang Yan, Yunfan Shao, Qiong Tang, Shiduo Zhang, Xingjian Zhao, Ke Chen, Yining Zheng, Zhejian Zhou, Ruixiao Li, Jun Zhan, Yunhua Zhou, Linyang Li, Xiaogui Yang, Lingling Wu, Zhangyue Yin, Xuanjing Huang, Yu-Gang Jiang & Xipeng Qiu

https://link.springer.com/article/10.1007/s11633-024-1502-8

https://www.mi-research.net/en/article/doi/10.1007/s11633-024-1502-8

全文导读

GPT-3、Gopher、PaLM、Chinchilla、GLM-130B、LLaMA和GPT-4等大语言模型(LLM)已在各种语言任务中展现出了前所未有的能力。这些大语言模型在对齐人类偏好之后,可以成为强大的AI助手,在许多领域提供帮助。通常,这些AI助手经过训练,能以对话的方式与用户交互,不仅受到研究人员的广泛关注,也同样引起了公众的关注。

1.png

大语言模型所展现的前所未有的智能超出了一些作者对概率模型的预期。对此,有一种解释猜测,模型学习了一些抽象和通用的概念,能够在比其训练样本更广泛的情境中发挥作用。大语言模型之所以能仅通过模仿,即最小化下一个词符的损失,就能学习到如此复杂的世界知识结构,可能是因为语言本身就意味着人类对世界逻辑的认知。而随着模型规模的扩大,模型会学习到更多的一般概念,能够处理更多的情境,即更好地压缩知识。训练MOSS的想法首先是要验证这一观点,如果这个观点在可接受的范围内成立,就有望实现中文版本的模型原型。

虽然大规模AI助手取得了成功并广受欢迎,但在本研究开始时,由于注释和训练成本较高,公开发布的研究还很少。为此,本文推出了MOSS,一个具有160亿参数的开源对话式大语言模型。如图1所示,MOSS的开发包括三个阶段:跨语言预训练、监督微调和偏好感知训练。与开源社区的现有成果(如LLaMA和Stanford Alpaca1)相比,MOSS的特点如下:

图1.png

2.png

1. 跨语言预训练。在MOSS项目启动初期,本文在将一个大规模纯中文模型(如CPT或中文BART)训练成多功能AI助手时,遇到了巨大挑战。为解决这个问题,本文开始在一个多样化数据集上对MOSS基础模型进行预训练,该数据集包括3600亿英文词符(主要来自Pile)、1000亿中文词符(主要来自专有数据集)和2200亿代码词符(主要从Pile、BigQuery和BigPython中提取)。这一策略可以验证本文的假设:即使在中英文之间没有直接句子对齐,中英文之间的知识转移也是可行的。

2. 有益、诚实且无害。与大多数现有的主要侧重于提高有益性的开源模型不同,MOSS还是一种诚实、无害的模型。本文收集并扩展了与诚实和无害相关的对话数据,用于监督微调(SFT)。此外,本文还对额外的数据进行了偏好感知训练,以确保MOSS意识到其在有益性方面的回复质量。

3. 与真实的用户意图分布相一致。现实中的用户指令必然是多种多样的,因此很难针对用户意图优化大语言模型。为此,本文部署了MOSS的早期版本,收集了10万条通过网络应用提交的用户指令。本文的SFT数据和偏好数据是由筛选过的用户指令子集合成的,从而确保 MOSS的训练数据和真实的用户意图分布相同。

4. 偏好感知训练。在公开发布大语言模型之前,一个必要的步骤就是将其与人类偏好对齐,这可以显著提高模型的可用性和无害性。现有的对齐研究通常需要一个根据人类或AI反馈训练的偏好模型(也称为奖励模型),以衡量模型对人类偏好的回复质量。偏好模型可用于执行拒绝采样或强化学习。前一种方法效率低下,因为该方法要求模型在推理时生成多个回复。后一种方法,又称人类反馈强化学习(RLHF),对超参数敏感,因此在实践中很难调整。而本文采用偏好模型来标记模型回复的整体质量。这些标记会添加到每轮对话的模型回复中。通过对这些带有偏好标记的对话数据进行常规微调,MOSS能够区分高质量和低质量的回复。在推理时,MOSS可以根据特定的偏好标记(例如 <quality:100>)生成所需的回复。

5. 工具增强。概率语言模型常常出现“幻觉”(hallucinations)的问题,例如,模型经常生成包含事实错误或基本运算错误的输出。本文受最近在工具增强大语言模型方面的研究启发,对模型进行了面向工具的训练,用几个工具(即搜索引擎、计算器、方程求解器和文本到图像生成器)来增强MOSS。虽然模型的能力并没有从根本上得到提高,但本文观察到,当允许MOSS访问外部工具来回答用户问题时,其优势非常明显。

本文对MOSS进行了自动评估,结果表明,在模型功能和实际用户体验方面,MOSS比其基础模型和并发聊天模型有了显著改进。

结论

本文介绍了拥有160亿参数的开源对话式大语言模型MOSS。MOSS的开发包括三个阶段:跨语言预训练、监督微调和偏好感知训练。首先,本文通过扩展词汇量、逐步解冻参数和跨语言预训练,大大提高了MOSS生成中文文本的质量和效率。其次,本文部署了MOSS的早期版本作为在线应用服务,并根据收集到的用户数据合成对话数据,让训练数据的分布与真实用户意图的分布相一致。第三,本文进行了偏好感知训练,根据AI反馈进一步提高生成质量。此外,本文还探索了训练MOSS使用搜索引擎、计算器、方程求解器和文本到图像生成器等外部工具。总之,作为中文对话大语言模型的早期实践,本文通过充分利用相对较小的语言模型和高质量的合成数据,验证了构建具有指令跟随和多轮中文对话能力模型的可行性。

全文下载:

MOSS: An Open Conversational Large Language Model

Tianxiang Sun, Xiaotian Zhang, Zhengfu He, Peng Li, Qinyuan Cheng, Xiangyang Liu, Hang Yan, Yunfan Shao, Qiong Tang, Shiduo Zhang, Xingjian Zhao, Ke Chen, Yining Zheng, Zhejian Zhou, Ruixiao Li, Jun Zhan, Yunhua Zhou, Linyang Li, Xiaogui Yang, Lingling Wu, Zhangyue Yin, Xuanjing Huang, Yu-Gang Jiang & Xipeng Qiu

https://link.springer.com/article/10.1007/s11633-024-1502-8

https://www.mi-research.net/en/article/doi/10.1007/s11633-024-1502-8

特别感谢本文通讯作者、复旦大学邱锡鹏教授对以上内容的审阅和修改!

纸刊免费寄送

Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!

说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737

收件信息登记:

https://www.wjx.cn‍/vm/eIyIAAI.aspx#  

关于Machine Intelligence Research

Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值达8.4,在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%。

往期目录

2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...

2024年第1期 | 特约专题: AI for Art

2023年第6期 | 影像组学、机器学习、图像盲去噪、深度估计...

2023年第5期 | 生成式人工智能系统、智能网联汽车、毫秒级人脸检测器、个性化联邦学习框架... (机器智能研究MIR)

2023年第4期 | 大规模多模态预训练模型、机器翻译、联邦学习......

2023年第3期 | 人机对抗智能、边缘智能、掩码图像重建、强化学习... 

2023年第2期 · 特约专题 | 大规模预训练: 数据、模型和微调

2023年第1期 | 类脑智能机器人、联邦学习、视觉-语言预训练、伪装目标检测... 

2022年第6期 | 因果推理、视觉表征学习、视频息肉分割...

2022年第5期 | 重磅专题:类脑机器学习

2022年第4期 | 来自苏黎世联邦理工学院Luc Van Gool教授团队、清华大学戴琼海院士团队等

2022年第3期 | 聚焦自然语言处理、机器学习等领域;来自复旦大学、中国科学院自动化所等团队

2022年第2期 | 聚焦知识挖掘、5G、强化学习等领域;来自联想研究院、中国科学院自动化所等团队

主编谭铁牛院士寄语, MIR第一期正式出版!

好文推荐

自动化所黄凯奇团队 | 分布式深度强化学习:综述与多玩家多智能体学习工具箱

约翰霍普金斯大学Alan Yuille团队 | 从时序和高维数据中定位肿瘤的弱标注方法

专题综述 | 大语言模型中的知识生命周期

精选综述 | 零信任架构的自动化和编排: 潜在解决方案与挑战

欧洲科学院院士蒋田仔团队 | 脑成像数据的多模态融合: 方法与应用

金耀初团队&郑锋团队 | 综述: 深度工业图像异常检测

专题好文 | 创新视听内容的联合创作: 计算机艺术面临的新挑战

下载量TOP好文 | 人工智能领域高下载文章集锦 (2022-2023年)

引用量TOP好文 | 人工智能领域高引用文章集锦 (2022-2023年)

综述 | 清华张学工教授: 肺癌影像组学中的机器学习

哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计

Luc Van Gool团队 | 通过Swin-Conv-UNet和数据合成实现实用图像盲去噪

贺威团队&王耀南院士团队 | 基于动态运动基元的机器人技能学习

乔红院士团队 | 类脑智能机器人:理论分析与系统应用 (机器智能研究MIR)

南科大于仕琪团队 | YuNet:一个速度为毫秒级的人脸检测器

上海交大严骏驰团队 | 综述: 求解布尔可满足性问题(SAT)的机器学习方法

西电公茂果团队 | 综述: 多模态数据的联邦学习

高文院士团队 | 综述: 大规模多模态预训练模型

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法

南航张道强教授团队 | 综述:用于脑影像基因组学的机器学习方法

ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法 (机器智能研究MIR)

Luc Van Gool团队 | 深度学习视角下的视频息肉分割

专题综述 | 高效的视觉识别: 最新进展及类脑方法综述

北大黄铁军团队 | 专题综述:视觉信息的神经解码

专题综述 | 迈向脑启发计算机视觉的新范式

专题好文 | 新型类脑去噪内源生成模型: 解决复杂噪音下的手写数字识别问题

戴琼海院士团队 | 用以图像去遮挡的基于事件增强的多模态融合混合网络

ETH Zurich重磅综述 | 人脸-素描合成:一个新的挑战

华南理工詹志辉团队 | 综述: 面向昂贵优化的进化计算

东南大学张敏灵团队 | 基于选择性特征增广的多维分类方法

联想CTO芮勇团队 | 知识挖掘:跨领域的综述

复旦邱锡鹏团队 | 综述:自然语言处理中的范式转换

MIR资讯

特别提醒!请认准MIR官方渠道,谨防受骗

2024年 AI 领域国际学术会议参考列表

专题征稿 | Special Issue on Transformers for Medical Image Analysis

MIR 优秀编委 & 优秀审稿人 & 高被引论文 (2023年度)

致谢审稿人 | Machine Intelligence Research

年终喜报!MIR科技期刊世界影响力指数跻身Q1区 (含100份龙年礼包)

最新 | 2023研究前沿及热点解读 (附完整PDF)

前进20名!MIR再度跻身国际影响力TOP期刊榜单

2022影响因子发布!人工智能领域最新SCI & ESCI期刊一览

喜报 | MIR入选图像图形领域 T2级 “知名期刊”!

双喜!MIR入选”2022中国科技核心期刊”,并被DBLP收录 | 机器智能研究MIR

报喜!MIR入选2022年国际影响力TOP期刊榜单

喜报 | MIR被 ESCI 收录!

喜报 | MIR 被 EI 与 Scopus 数据库收录

屏幕截图 2024-06-04 172745.png



https://blog.sciencenet.cn/blog-749317-1436867.html

上一篇:自动化所黄凯奇团队 | 分布式深度强化学习:综述与多玩家多智能体学习工具箱
下一篇:MIR最新CiteScore继续跻身Q1区!6月底将首迎 IF 值
收藏 IP: 159.226.178.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-20 20:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部