天上人间分享 http://blog.sciencenet.cn/u/terahertz 淡泊明志,宁静致远 liuguifeng29@163.com

博文

小语言模型研究综述:创新架构、优化技术与应用场景

已有 740 次阅读 2026-4-27 14:33 |个人分类:发表论文|系统分类:科普集锦

(本文发表于《情报理论与实践》2026年第4期P194-202)

目的/意义 小语言模型代表了人工智能技术的重要发展方向,对小模型研究进行系统梳理和总结具有重要的意义。 方法/过程 通过系统梳理小模型的内涵和特征,归纳小模型常用的架构模式,并详细解析小模型压缩、优化和训练的关键技术,总结当前较为代表性的小模型及其应用场景。 结果/结论 研究发现小模型与大模型在参数规模、部署方式、模型架构等方面存在显著差别;小模型多采用多层次和混合的创新架构方式;模型压缩技术包括模型剪枝、知识蒸馏、特征生成技术与词汇缩减等;模型优化训练技术包括过参数化技术、预训练技术、专家经验与领域专业知识相融合、无掩码训练、双向无监督、差分隐私等;解码算法包括束搜索、贪心采样、随机采样、温度采样、Top-k/p采样等;具有代表性的小模型包括GPT-2、BERT Base、Orca 2等,通过在文本语料库上的预训练,能够生成连贯的文本、回答问题并参与对话;在医疗、智慧农业等领域已经开展了文本分类、信息提取、可解释预测、跨领域应用实践。

链接: http://www.itapress.cn/CN/10.16353/j.cnki.1000-7490.2026.04.022 



https://blog.sciencenet.cn/blog-39723-1532320.html

上一篇:融合主题特征的信息资源管理学科论文分类及主题识别研究
收藏 IP: 180.118.114.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-4-29 19:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部