博文

复旦邱锡鹏团队 | MOSS: 一个开源的对话式大语言模型

已有 506 次阅读 2024-6-4 17:28 |个人分类:好文推荐|系统分类:论文交流

屏幕截图 2024-06-04 171644.png

在2022年底，ChatGPT一经发布，便迅速成为全球热点话题。但其技术细节未被公开，这也引发了公众对中美在人工智能领域技术差异的关注和担忧。复旦大学的邱锡鹏团队于2023年2月20日发布了对话式大语言模型MOSS，并公开其技术路线，引起了学术界和工业界的广泛关注。MOSS的发布是一个重要的里程碑，展示了在资源受限的情况下构建高效大型语言模型的可能性，还为全球研究者和开发者提供了重要的技术参考和实践经验，也提升了国人研发大语言模型的信心。MOSS是一个160亿参数的开源语言模型，这使它在处理与人类的多轮交互时具备高度的灵活性和执行各种指令的能力。文章详细阐述了MOSS在研发过程中的各项技术挑战和解决方案，包括预训练、监督微调和模型对齐等关键步骤。此外，文章还深入探讨了MOSS团队在早期大语言模型研发过程中的思考和方法论，充分反映了该团队对于前沿科技的深刻洞察。

题目.png

全文下载：

MOSS: An Open Conversational Large Language Model

Tianxiang Sun, Xiaotian Zhang, Zhengfu He, Peng Li, Qinyuan Cheng, Xiangyang Liu, Hang Yan, Yunfan Shao, Qiong Tang, Shiduo Zhang, Xingjian Zhao, Ke Chen, Yining Zheng, Zhejian Zhou, Ruixiao Li, Jun Zhan, Yunhua Zhou, Linyang Li, Xiaogui Yang, Lingling Wu, Zhangyue Yin, Xuanjing Huang, Yu-Gang Jiang & Xipeng Qiu

https://link.springer.com/article/10.1007/s11633-024-1502-8

https://www.mi-research.net/en/article/doi/10.1007/s11633-024-1502-8

全文导读

GPT-3、Gopher、PaLM、Chinchilla、GLM-130B、LLaMA和GPT-4等大语言模型(LLM)已在各种语言任务中展现出了前所未有的能力。这些大语言模型在对齐人类偏好之后，可以成为强大的AI助手，在许多领域提供帮助。通常，这些AI助手经过训练，能以对话的方式与用户交互，不仅受到研究人员的广泛关注，也同样引起了公众的关注。

大语言模型所展现的前所未有的智能超出了一些作者对概率模型的预期。对此，有一种解释猜测，模型学习了一些抽象和通用的概念，能够在比其训练样本更广泛的情境中发挥作用。大语言模型之所以能仅通过模仿，即最小化下一个词符的损失，就能学习到如此复杂的世界知识结构，可能是因为语言本身就意味着人类对世界逻辑的认知。而随着模型规模的扩大，模型会学习到更多的一般概念，能够处理更多的情境，即更好地压缩知识。训练MOSS的想法首先是要验证这一观点，如果这个观点在可接受的范围内成立，就有望实现中文版本的模型原型。

虽然大规模AI助手取得了成功并广受欢迎，但在本研究开始时，由于注释和训练成本较高，公开发布的研究还很少。为此，本文推出了MOSS，一个具有160亿参数的开源对话式大语言模型。如图1所示，MOSS的开发包括三个阶段：跨语言预训练、监督微调和偏好感知训练。与开源社区的现有成果(如LLaMA和Stanford Alpaca1)相比，MOSS的特点如下：

图1.png

1. 跨语言预训练。在MOSS项目启动初期，本文在将一个大规模纯中文模型(如CPT或中文BART)训练成多功能AI助手时，遇到了巨大挑战。为解决这个问题，本文开始在一个多样化数据集上对MOSS基础模型进行预训练，该数据集包括3600亿英文词符(主要来自Pile)、1000亿中文词符(主要来自专有数据集)和2200亿代码词符(主要从Pile、BigQuery和BigPython中提取)。这一策略可以验证本文的假设：即使在中英文之间没有直接句子对齐，中英文之间的知识转移也是可行的。

2. 有益、诚实且无害。与大多数现有的主要侧重于提高有益性的开源模型不同，MOSS还是一种诚实、无害的模型。本文收集并扩展了与诚实和无害相关的对话数据，用于监督微调(SFT)。此外，本文还对额外的数据进行了偏好感知训练，以确保MOSS意识到其在有益性方面的回复质量。

3. 与真实的用户意图分布相一致。现实中的用户指令必然是多种多样的，因此很难针对用户意图优化大语言模型。为此，本文部署了MOSS的早期版本，收集了10万条通过网络应用提交的用户指令。本文的SFT数据和偏好数据是由筛选过的用户指令子集合成的，从而确保 MOSS的训练数据和真实的用户意图分布相同。

4. 偏好感知训练。在公开发布大语言模型之前，一个必要的步骤就是将其与人类偏好对齐，这可以显著提高模型的可用性和无害性。现有的对齐研究通常需要一个根据人类或AI反馈训练的偏好模型(也称为奖励模型)，以衡量模型对人类偏好的回复质量。偏好模型可用于执行拒绝采样或强化学习。前一种方法效率低下，因为该方法要求模型在推理时生成多个回复。后一种方法，又称人类反馈强化学习(RLHF)，对超参数敏感，因此在实践中很难调整。而本文采用偏好模型来标记模型回复的整体质量。这些标记会添加到每轮对话的模型回复中。通过对这些带有偏好标记的对话数据进行常规微调，MOSS能够区分高质量和低质量的回复。在推理时，MOSS可以根据特定的偏好标记(例如 <quality:100>)生成所需的回复。

5. 工具增强。概率语言模型常常出现“幻觉”(hallucinations)的问题，例如，模型经常生成包含事实错误或基本运算错误的输出。本文受最近在工具增强大语言模型方面的研究启发，对模型进行了面向工具的训练，用几个工具(即搜索引擎、计算器、方程求解器和文本到图像生成器)来增强MOSS。虽然模型的能力并没有从根本上得到提高，但本文观察到，当允许MOSS访问外部工具来回答用户问题时，其优势非常明显。

本文对MOSS进行了自动评估，结果表明，在模型功能和实际用户体验方面，MOSS比其基础模型和并发聊天模型有了显著改进。

结论

本文介绍了拥有160亿参数的开源对话式大语言模型MOSS。MOSS的开发包括三个阶段：跨语言预训练、监督微调和偏好感知训练。首先，本文通过扩展词汇量、逐步解冻参数和跨语言预训练，大大提高了MOSS生成中文文本的质量和效率。其次，本文部署了MOSS的早期版本作为在线应用服务，并根据收集到的用户数据合成对话数据，让训练数据的分布与真实用户意图的分布相一致。第三，本文进行了偏好感知训练，根据AI反馈进一步提高生成质量。此外，本文还探索了训练MOSS使用搜索引擎、计算器、方程求解器和文本到图像生成器等外部工具。总之，作为中文对话大语言模型的早期实践，本文通过充分利用相对较小的语言模型和高质量的合成数据，验证了构建具有指令跟随和多轮中文对话能力模型的可行性。

全文下载：

MOSS: An Open Conversational Large Language Model

https://link.springer.com/article/10.1007/s11633-024-1502-8

https://www.mi-research.net/en/article/doi/10.1007/s11633-024-1502-8

特别感谢本文通讯作者、复旦大学邱锡鹏教授对以上内容的审阅和修改！

纸刊免费寄送

Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务，如您对本篇文章感兴趣，请点击下方链接填写收件地址，编辑部将尽快为您免费寄送纸版全文！

说明：如遇特殊原因无法寄达的，将推迟邮寄时间，咨询电话010-82544737

收件信息登记：

https://www.wjx.cn‍/vm/eIyIAAI.aspx#

关于Machine Intelligence Research

Machine Intelligence Research（简称MIR，原刊名International Journal of Automation and Computing）由中国科学院自动化研究所主办，于2022年正式出版。MIR立足国内、面向全球，着眼于服务国家战略需求，刊发机器智能领域最新原创研究性论文、综述、评论等，全面报道国际机器智能领域的基础理论和前沿创新研究成果，促进国际学术交流与学科发展，服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划"，已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录，入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值达8.4，在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区，最佳排名挺进Top 4%。

往期目录

2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...

2024年第1期 | 特约专题: AI for Art

2023年第6期 | 影像组学、机器学习、图像盲去噪、深度估计...

2023年第5期 | 生成式人工智能系统、智能网联汽车、毫秒级人脸检测器、个性化联邦学习框架... (机器智能研究MIR)

2023年第4期 | 大规模多模态预训练模型、机器翻译、联邦学习......

2023年第3期 | 人机对抗智能、边缘智能、掩码图像重建、强化学习...

2023年第2期 · 特约专题 | 大规模预训练: 数据、模型和微调

2023年第1期 | 类脑智能机器人、联邦学习、视觉-语言预训练、伪装目标检测...

2022年第6期 | 因果推理、视觉表征学习、视频息肉分割...

2022年第5期 | 重磅专题：类脑机器学习

2022年第4期 | 来自苏黎世联邦理工学院Luc Van Gool教授团队、清华大学戴琼海院士团队等