博文

基于混合专家的可扩展情感分析模型

已有 591 次阅读 2026-7-3 16:15 |系统分类:博客资讯

引用本文

陈千, 胡梦强, 郭鑫, 王素格. 基于混合专家的可扩展情感分析模型. 自动化学报, 2026, 52(4): 749−764 doi: 10.16383/j.aas.c250366

Chen Qian, Hu Meng-Qiang, Guo Xin, Wang Su-Ge. Scalable sentiment analysis model based on mixture of experts. Acta Automatica Sinica, 2026, 52(4): 749−764 doi: 10.16383/j.aas.c250366

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c250366

关键词

情感分析，混合专家，可解释性，细粒度特征捕捉，可扩展性

摘要

情感分析作为自然语言处理领域的核心任务之一, 面临着精准捕捉细粒度情感特征以及提升模型可解释性的双重挑战. 为此, 提出一种基于混合专家模型的可扩展情感分析框架, 通过将门控机制融入专家内部, 设计可在任意预训练语言模型中扩展的混合专家模块. 该框架旨在以可控的计算开销扩展模型容量, 促进细粒度条件计算和专家专业化. 在三个典型情感分析数据集上的综合实验表明, 与基线模型相比, 本方法在关键指标上均取得显著提升, 尤其在处理复杂多分类任务时, 其性能已达到甚至超过主流参数高效微调大语言模型的水平. 更重要的是, 得益于稀疏激活机制, 模型在保持高性能的同时, 展现出卓越的推理效率. 通过对专家激活模式和输出表征的深入分析, 清晰地观察到不同专家针对特定语义模式形成功能专精. 这为模型决策提供直观且有力的可解释性证据, 验证该框架在构建高效、高性能且可信赖的情感分析系统中的巨大潜力.

文章导读

情感分析是自然语言处理领域最热门的研究方向之一, 其主要目标是从文本数据中系统地识别、提取并量化主观信息, 如观点、情感和态度等[1]. 随着用户生成数据的爆炸式增长, 从复杂的商业智能系统到实时的社交媒体监控, 情感分析在舆情分析[2]、商业决策[3]、人机交互[4]等领域得到越来越广泛的应用, 具有重大研究价值.

传统基于规则和机器学习的方法(如SVM (support vector machine)、朴素贝叶斯、随机森林等)虽然简单, 但在识别否定、隐式情感和反讽等复杂情感时表现不佳[5−11]. 深度学习技术(如CNN (convolutional neural network)、LSTM (long short-term memory))因自动化特征提取和较高准确性等优势被广泛应用于情感分析领域, 然而细粒度情绪捕获能力不足和海量高质量标注数据稀缺是其固有缺陷[12]. 基于Transformer架构的预训练语言模型(pre-trained language model, PLM)进一步催生预训练 + 微调范式的诞生(如RoBERTa、T5、GPT2), 为识别文本中复杂的语义和情感特征提供强大而灵活的骨干. 然而PLM通常采用密集型网络结构, 要求对模型中数量巨大的参数进行全激活, 导致高计算成本和低推理延迟问题, 严重限制了模型在资源受限场景下的应用[13−14].

近年来以GPT-4、Grok、DeepSeek、LLaMA等为代表的大型语言模型(large language model, LLM)在包括通用情感分析的广泛NLP任务中展现出卓越的性能. 然而在理解更细微情感现象和结构化情感信息的复杂任务中, LLM表现出较大性能差异, 甚至不如在特定领域中专门训练的小型语言模型[13]. LLM庞大的参数规模使得其在特定领域存在训练成本高、推理计算资源高、实际部署应用成本高、模型可解释性严重不足等缺点. LLM对情感的嵌入表示编码的具体机制仍未被充分探索, 这进一步限制了部分闭源LLM的优化空间和情感可解释性. 情感分析领域前沿任务促使当前研究从对LLMs的持续追求转向小型且高效模型、参数高效微调(parameter-efficient fine-tuning, PEFT)及基于适配器的方法[15−16].

MoE (mixture of experts)是近年来提出的一种通过多个专家网络并行处理、门控机制动态组合其输出的模型架构[17]. 单一的、整体的模型往往难以应对所有语言现象, 而情感分析任务的内在复杂性和多面性使其天然适合采用MoE的计算范式. MoE选择性激活专家的能力, 为解决这一问题提供了一种强大的机制. 如图1所示, 不同的专家可以被训练或鼓励专门处理情感的不同方面: 第一个专家可能擅长识别隐式情感, 第二个擅长检测否定情感, 第三个擅长理解反讽语气. 通过让每个专家专注于输入数据的不同方面, 模型内部的决策路径可以变得更加可追溯和易于解释. 此外, 基于稀疏门控的专家路由策略使得在推理过程中仅激活少量几个擅长处理当前任务的专家模块, 从而极大降低计算成本. 这对于大规模情感分析任务非常有益, 使得模型集成更大规模的参数成为可能, 进而产生更丰富的语义表示.

图1 MoE模式在情感分析中的示例

然而现有MoE的理论研究主要聚焦于门控路由策略(从简单路由到token级、模态级、任务级以及复杂动态算法路由)、负载均衡、训练效率、降低计算资源和通信开销的相关研究[18], 对专家模型内部的设计关注较少, 且由于MoE专家结构与前馈网络(feedforward network, FFN)差异较大, 直接替换可能导致预训练知识丢失[19−20]. 此外, 现有的MoE架构大多将专家视为静态的前馈网络, 其条件化计算完全依赖于顶层的路由网络. 这种设计虽然降低了计算量, 但一旦输入被分配给某个专家, 其内部处理流程是固定的, 这限制了专家处理多样化特征的灵活性. 与传统MoE将专家视为静态FFN不同, 本工作在情感分析任务中探索专家内部的门控机制, 提出一种两阶段条件计算MoE框架. 第一阶段, 通过稀疏门控路由网络选择宏观层面的专家; 第二阶段, 在每个专家内部嵌入一个独立的门控单元, 实现专家内部的微观条件计算. 这意味着每个专家都能根据接收到的特征动态调整其内部信息流, 从而学习到更具区分度与专精化的表征. 这种设计不仅提升模型的细粒度情感捕捉能力, 更重要的是, 其还能通过分析输入−输出在专家簇中的分布差异, 为模型的可解释性提供新的维度, 有效回应LLM时代对高效、透明AI的需求.

本文的主要贡献包括: 1)提出一种在性能与效率之间取得卓越平衡的可扩展MoE模型框架. 实验证明, 该框架在显著提升情感分析性能(在TweetEval等复杂任务上超越了多种微调后的LLM)的同时, 保持了远超基线模型的推理吞吐量和更低的计算量, 为解决大模型在实际应用中部署和推理成本高昂的问题提供了新思路. 2)从多个维度(专家激活热图、输出表征聚类、具体案例分析)深入地探究模型的可解释性. 提供专家功能专精化的直接可视化证据, 清晰地揭示模型处理混合情感、反讽和双重否定等复杂语言现象时的内部决策路径. 3)对所提出的MoE框架进行全面深入的实证评估, 不仅包含了与多种参数高效微调方法的横向对比, 还涵盖了与多种主流大语言模型(LLMs)在零样本和微调设置下的性能及资源开销对比, 明确了本方法在当前技术格局中的独特优势和适用场景.

图2 基于RoBERTa的可扩展MoE框架

图3 混淆矩阵图

本研究提出一种基于混合专家的可扩展情感分析模型且成功集成到RoBERTa中, 并在性能提升、效率分析、专家专精化、可解释性和可扩展性方面进行了深入的实验分析. 通过用自定义MoE层替换RoBERTa的FFN层, 并在每个专家内部引入独特的门控逻辑, 本研究的模型在准确率、精确率、召回率和F1分数等关键指标上均超越了基线RoBERTa模型和前沿模型. 这表明, 通过引入更细粒度的条件计算, 模型能够学习到更强大、更具区分性的情感表示. 同时实验结果明确证实了专家专精化的存在, 通过量化专家激活模式和专家重叠程度, 揭示了专家学习不同且非冗余知识的能力. 这种专精化不仅提升了模型性能, 也为模型的可解释性奠定了基础. 案例分析进一步提供直观的证据, 展示了模型如何通过动态激活特定专家来处理复杂的情感输入. 本研究的MoE-RoBERTa模型还展现MoE架构固有的可扩展性优势. 通过稀疏激活机制, 模型能够在不显著增加计算开销的情况下扩展其总参数量, 展现了其在处理复杂情感任务中的潜力及良好的扩展性, 为未来构建更大规模、更高效、更具可解释性的情感分析系统提供了可能.

未来的工作可以集中在以下几个方面: 1)更复杂的门控机制. 可以研究更先进的门控单元设计, 例如引入层次化门控、基于上下文的门控机制或自适应门控策略. 2)多模态情感分析. 将MoE-RoBERTa架构扩展到多模态情感分析任务, 利用专家处理文本、图像或音频等不同模态的信息, 以应对日益复杂的用户生成内容. 3)其他NLP任务的推广. 将MoE-RoBERTa的成功经验推广到其他NLP任务, 如文本分类、命名实体识别、问答系统、文本摘要等, 为构建更通用的MoE-based NLP模型奠定基础.