||
(本文发表于《情报理论与实践》2026年第4期P194-202)
目的/意义 小语言模型代表了人工智能技术的重要发展方向,对小模型研究进行系统梳理和总结具有重要的意义。 方法/过程 通过系统梳理小模型的内涵和特征,归纳小模型常用的架构模式,并详细解析小模型压缩、优化和训练的关键技术,总结当前较为代表性的小模型及其应用场景。 结果/结论 研究发现小模型与大模型在参数规模、部署方式、模型架构等方面存在显著差别;小模型多采用多层次和混合的创新架构方式;模型压缩技术包括模型剪枝、知识蒸馏、特征生成技术与词汇缩减等;模型优化训练技术包括过参数化技术、预训练技术、专家经验与领域专业知识相融合、无掩码训练、双向无监督、差分隐私等;解码算法包括束搜索、贪心采样、随机采样、温度采样、Top-k/p采样等;具有代表性的小模型包括GPT-2、BERT Base、Orca 2等,通过在文本语料库上的预训练,能够生成连贯的文本、回答问题并参与对话;在医疗、智慧农业等领域已经开展了文本分类、信息提取、可解释预测、跨领域应用实践。
链接: http://www.itapress.cn/CN/10.16353/j.cnki.1000-7490.2026.04.022
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-29 21:05
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社