||
将错误映射至正确:促进语音摘要中的大语言模型自我修正
赵雪剑1,2, 齐晓哲1,2, 贾鸿福1,2, 宋志达1,2, 何翔1,2, 何亮1,2,3,4
(1. 新疆大学 计算机科学与技术学院,乌鲁木齐830017;2. 新疆多模态信息技术工程研究中心,乌鲁木齐830017;3. 新疆大学 智能科学与技术学院,乌鲁木齐830017;4. 清华大学 电子工程系,北京信息科学与技术国家研究中心,北京100084)
摘要:级联语音摘要通常将自动语音识别与文本摘要连接起来,而后从语音生成文本摘要。然而,自动语音识别转录错误会对性能产生不利影响。为了减少自动语音识别错误的传播,本工作探索了在级联语音摘要中大语言模型的应用。首先,我们开发了一个名为METC(映射错误到纠正)的框架,用于构建指令集,使指令调整能够使大语言模型从不完美的转录本中生成准确的摘要。其次,为了将在METC中学习到的纠错能力转移到长摘要任务中,研究了三种微调策略:两阶段微调、混合微调和课程学习微调。实验结果表明,METC指令集显著提高了大语言模型在具有挑战性的自动语音识别条件下生成准确摘要的能力;与MegaSSum数据集的基线相比,我们的方法的性能提高了6.93%。在TEDsum数据集的一个子集上评估了这三种微调策略,该数据集使用Whisper模型生成的文本作为输入,取代了真实文本。结果表明,课程学习微调策略有效地转移了从METC指令集学习到的能力,从不完美转录生成的摘要获得的ROUGE-L分数仅比从真实转录生成的摘要低1分。
关键词:语音识别,语音摘要,TED Talks,大语言模型
扫二维码浏览全文

Cite this article
Zhao, X., Qi, X., Jia, H. et al. Mapping Errors to Corrections: Promoting Self-Correcting LLM in Speech Summarization. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2915-z

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 06:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社