博文

[转载]通过显式推理建模的医学语言模型混合监督微调方法

已有 542 次阅读 2026-5-31 11:20 |系统分类:论文交流|文章来源:转载

通过显式推理建模的医学语言模型混合监督微调方法

王诩¹，陶卫¹，南卓江¹，万松²

（1. 上海交通大学自动化与感知学院，上海 200240；2. 上海西虹桥导航技术有限公司，上海 201702）

摘要：为提升小参数量医学大语言模型在内科问答任务中的推理稳定性，本文提出了一种基于显式思维链建模与混合监督微调的训练方法。首先，构建了包含通用内科指令数据与显式思维链数据的分层数据集；在此基础上，实施两阶段混合监督微调流程，并引入直接偏好优化以实现模型与临床偏好的对齐。实验结果表明，所提方法在中文医学基准测试中提升了准确率，同时降低了冗余推理比例，有效增强了复杂临床问诊的逻辑严谨性。此外，上述发现验证了该方法在隐私敏感及算力受限的真实临床场景中，部署低成本、高可靠性本地化辅助诊断系统的显著潜力。

关键词：医学大语言模型，指令问答，监督微调，思维链

扫二维码浏览全文

Cite this article

Wang, X., Tao, W., Nan, Z. et al. Hybrid Supervised Fine-Tuning Method for Medical Language Models via Explicit Reasoning Modeling. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2929-6