博文

如何高效地获得大语言模型的海量训练数据？精选

已有 5337 次阅读 2024-11-18 06:18 |个人分类:人工智能|系统分类:科研笔记

[敬请读者注意] 本人保留本文的全部著作权利。如果哪位读者使用本文所描述内容，请务必如实引用并明白注明本文出处。如果本人发现任何人擅自使用本文任何部分内容而不明白注明出处，恕本人在网上广泛公布侵权者姓名。敬请各位读者注意，谢谢！

如何高效地获得大语言模型的海量训练数据？

程京德

最近，所有的大语言模型都应该遇到了一个瓶颈问题：网上的训练用数据，纯净的也好被污染了的也罢，都已经被用尽，无从可寻了。有些大语言模型的研发企业已经开始收购，或者自己生成训练用数据了。

在笔者看来，如果你已经具有一定数量的语料数据作为基础或出发点，那么高效地获得海量语料数据的唯一有效方法就是：基于正确选择的形式逻辑系统，以自动推理的方式，高效自动生成新的语料数据。

只要你的原始语料数据是纯净的，那么以上述方式获得的新语料数据必定也是纯净的；如果你的原始语料数据并不纯净而是在某种程度上被污染了的，那么以上述方式获得的新语料数据的污染程度，不会超出你的原始语料数据，亦即，上述方式是“保洁”的，既不会澄清你的原始语料数据中的污染，亦不会在新生成的语料数据中增生新的污染。这种“保洁性”的关键在于你选对了正确的形式逻辑系统。比如，如果你选用了经典数理逻辑作为基础逻辑系统，那么“垃圾”的组合爆炸就会万劫不复了[微笑😊]。

具体细节不是能够在一篇短文的篇幅介绍清楚的，有兴趣的读者请参阅本文参考文献。

蛇足：所有的技术工具都是双刃剑。不愿意自己领域内关键数据被无端无偿利用的人们，请保护好你们的原始数据吧。

参考文献

[1] 程京德, “逻辑学是什么？”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2023年1月25日。

[2] 程京德，“形式理论：将形式逻辑系统应用于具体对象领域的逻辑基础”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2023年1月30日；“形式理论：将形式逻辑系统应用于具体对象领域的逻辑基础（增补版）”，微信公众号“数理逻辑与哲学逻辑”，2023年4月17日。

[3] 程京德，“推理与证明之不同”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2023年5月7日。

[4] 程京德, “为什么说逻辑推理能力是人类智能中最基本的能力？”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2023年10月27日。

[5] 程京德，“智能：具体智能和抽象智能，个体智能和群体智能，以及人工智能之天花板”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2024年9月25日。

[6] 程京德，“哲学逻辑 (1) - 何谓‘哲学逻辑’？”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2023年8月29日； “哲学逻辑 (1) - 何谓‘哲学逻辑’？（修订增补版）”，微信公众号“数理逻辑与哲学逻辑”，2024年11月13日；“哲学逻辑 (2) - 模态逻辑(Modal Logic)”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2023年8月30日；“哲学逻辑 (2) - 模态逻辑(Modal Logic)（修订增补版）”，微信公众号“数理逻辑与哲学逻辑”，2024年11月15日。

[7] 程京德，“相关逻辑(1) – 背景与前史”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2024年5月28日； “相关逻辑(2) – 创建”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2024年6月9日； “相关逻辑(3) – 特征”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2024年6月18日； “相关逻辑(4) – 形式语言”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2024年6月25日； “相关逻辑(5) –形式化公理系统”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2024年8月05日。

[8] 程京德，“以ChatGPT为代表的无偿式概率式自动生成工具的滥用将给人类社会带来什么后果？” 微信公众号“数理逻辑与哲学逻辑”，科学网博客，2023年2月6日。

[9] 程京德，“ChatGPT 的原理局限性：它永远不会做什么？”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2023年2月10日。

[10] 程京德，“论‘创造/创作/创新’及AIGC工具的‘创造性’”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2023年3月8日。

[11] 程京德，“大语言模型悖论”，微信公众号“数理逻辑与哲学逻辑”，科学网博客，2024年8月26日。

微信公众号“数理逻辑与哲学逻辑”