|
研究背景
情感分析(Sentiment Analysis)是自然语言处理(NLP)的重要分支,旨在理解和分析人们对产品、服务等的观点与情绪。基于方面的情感分析(Aspect-Based Sentiment Analysis, ABSA)是情感分析的细粒度任务,它不仅判断整体情感极性,还要在方面(aspect)层面进行更精细的情感分类。多年来,研究者将ABSA形式化为多种不同的任务,从早期的单一元素任务(如方面词提取ATE、观点词提取OTE、方面情感分类ASC)发展到多元素的复合任务(Compound ABSA)。特别是近年来,涉及三个及以上元素的复杂复合ABSA任务(Complex Compound ABSA)成为研究热点,包括ASTE(方面情感三元组提取)、TASD(目标方面情感检测)、ASQP(方面情感四元组预测)和ACOS(方面类别观点情感四元组提取)。然而,由于ABSA任务种类繁多、术语差异大、方法多样,研究者难以全面把握该领域的研究现状和发展趋势。研究亮点
1. 系统定义了“复杂复合ABSA任务”的概念,即涉及至少三个ABSA元素的任务,涵盖ASTE、TASD、ASQP和ACOS四类任务,提供了清晰的任务分类体系。2. 全面整理了ABSA的两大方法论体系:抽取式方法(流水线、联合/多任务、统一抽取)和生成式方法(通用任务转换、多任务学习与统一、非自回归),并详细分析了各类代表性模型的技术特点。3. 在10个数据集上对超过20个模型进行了全面的F1分数对比实验,发现生成式方法(尤其是基于T5的MvP模型)全面超越抽取式方法,确立了生成式范式在复杂ABSA中的主导地位。4. 深入分析了预训练语言模型(PLM)对ABSA性能的影响,对比了BERT-base(110M)、RoBERTa-base(125M)、T5-base(220M)、BART-base(140M)等PLM的参数规模和训练数据,揭示了T5-base凭借156B token的大规模训练数据为生成式方法带来显著优势。5. 识别了三个重要的未来研究方向:观点-情感统一建模(探索观点词与情感极性的内在联系)、LLM的深入利用(当前ChatGPT仍落后于微调模型)、以及开放域ABSA(突破餐饮/笔记本等封闭域限制)。图文导读
图1展示了ABSA任务的分类体系,明确了本文的研究范围。ABSA的关键元素包括四个:方面词(aspect term, a)、方面类别(aspect category, c)、观点词(opinion term, o)和情感极性(sentiment polarity, s)。单一任务仅预测一个元素(如ATE、OTE、ASC、ACC),复合任务预测两个元素(如AOPE、ATSC),而复杂复合任务预测三个及以上元素:ASTE预测(a,o,s)三元组,TASD预测(a,c,s)三元组,ASQP和ACOS预测(a,c,o,s)四元组。本综述重点关注这些复杂复合任务,因为它们提供接近完整的预测结果,对用户更有实用价值。
表1通过一个具体的餐饮评论示例展示了四种复杂复合ABSA任务的区别。对于输入文本“I think it is good, just the sauce was a little bit thick and the price was expensive”:ASTE输出三元组如(price, expensive, NEG);TASD输出三元组如(price, PRICE, NEG)和(sauce, FOOD, NEG);ASQP和ACOS输出四元组如(price, PRICE, expensive, NEG)。两者的区别在于,ASQP的方面词和观点词必须显式出现在文本中,而ACOS允许隐式方面词和隐式观点词(即文本中未直接出现的情况)。

表2提供了所有任务及其数据集的详细统计信息。数据集主要来源于SemEval系列评测任务:SemEval-2014(笔记本和餐厅域)、SemEval-2015、SemEval-2016,以及ASTE-Data-V2和ACOS专用数据集。统计内容包括训练集/验证集/测试集的输入文本数量,以及正/中/负情感的三元组或四元组分布。值得注意的是,各任务的数据集存在重叠但不完全相同,且正面情感在所有数据集中均占比最高。

图2展示了抽取式方法的主要技术路线。抽取式方法将ABSA视为序列标注或分类问题,分为三大类:(1)流水线方法(Pipeline):分为元素提取和情感分类/验证两个阶段,先提取方面词和观点词,再对候选词进行情感分类;(2)联合/多任务方法(Joint/Multi-task):通过标签操作、强化学习或端到端学习将多个子任务统一;(3)统一抽取方法(Unified Extractive):如基于阅读理解(MRC)的方法和级联框架。典型模型包括GTS(网格标注)、JET(统一标签)、Span-ASTE(跨度层面提取)、SBN(双向网络)、B-MRC和Dual-MRC(阅读理解)等,大多以BERT-base为编码器。

图3展示了生成式方法的主要技术路线。生成式方法将ABSA转化为文本生成问题,用序列到序列(seq2seq)模型直接生成包含情感元素的文本序列。主要分为三类:(1)通用任务转换(Common Task Transformation):如GAS将标签转为格式化文本,Paraphrase将标签转为自然语言释义,BART-ABSA使用指针和类别索引机制;(2)多任务学习与统一(Multi-task & Unification):如MvP通过多视角提示和投票机制达到最优性能,UIE利用异构数据集预训练,UnifiedABSA将所有任务统一为文本到文本问题,LEGO-ABSA用元素提示实现从简单到复杂任务的迁移;(3)非自回归方法(Non-autoregressive):如NAT一次性生成所有输出,避免自回归的顺序依赖问题。大多数生成式模型以T5-base或BART-base为骨干网络。

表3是本综述的核心实验结果,展示了所有覆盖模型在10个数据集、四个任务上的F1分数。关键发现包括:在ASTE任务上,SBN是抽取式方法的最佳模型,Span-ASTE和B-MRC紧随其后;生成式方法中,MvP在大多数任务和数据集上达到最优,其多视角提示和投票验证机制贡献显著。DLO和ILO是另两个表现优异的生成式模型,他们通过元素顺序优化提升了性能。值得注意的是,利用多任务学习的模型(标记为下标Multi)通常能获得额外的性能提升,证明了从简单任务向复杂任务迁移学习的有效性。整体而言,生成式方法全面超越抽取式方法,尤其在四元组任务(ASQP、ACOS)上优势更为明显,这也证明抽取式方法难以处理更复杂的任务。

表4对比了各模型使用的预训练语言模型(PLM)。抽取式模型主要使用编码器型的BERT-base(110M参数,3.3B token训练数据)和RoBERTa-base(125M参数,13.3B+ token);生成式模型主要使用编码器-解码器型的T5-base(220M参数,156B token)和BART-base(140M参数,13.3B+ token)。T5-base在参数规模和训练数据上都具有显著优势,尤其是其156B token的训练数据中包含了监督任务数据(如情感分析SST-2、自然语言推理MNLI等),这为下游ABSA任务提供了强大的基础。这解释了为何基于T5的生成式模型能显著超越基于BERT的抽取式模型。

原文信息
Methodologies and their comparison in complex compound aspect-based sentiment analysis: A survey
Faiz Ghifari Haznitrama, Ho-Jin Choi, Chin-Wan ChungSchool of Computing, KAIST, Daejeon, South KoreaAI Open, Volume 6, Pages 53–69, 2025DOI: 10.1016/j.aiopen.2025.02.002期刊介绍

AI Open是一本致力于分享人工智能及其应用理论的英文国际期刊,期刊侧重人工智能领域可操作知识层面及具有前瞻性观点的研究。期刊主编由清华大学计算机与科学技术系唐杰教授担任。
AI Open欢迎人工智能及其应用相关领域的文章。
期刊收录的所有文章都经过严格的同行评审,并发表在月活用户超过2000万的ScienceDirect平台,供领域内的学者、及全球读者免费阅读、下载及引用。
目前,期刊已被ESCI、Ei Compendex、Scopus、DOAJ、dblp computer science bibliography、EBSCOhost等权威数据库收录。在COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS学科175种国际期刊中位列第3位(Q1区),在COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE学科204种国际期刊中位列第5位(Q1区)。
主编
唐杰,清华大学
Björn W. Schuller, Imperial College London
副主编
Wendy Hall, University of Southampton
Michalis Vazirgiannis,Ecole Polytechnique
Jose A. Lozano,University of the Basque Country UPV/EHU
Esma Aïmeur,University of Montreal, Canada
刘知远,清华大学
张静,中国人民大学
东昱晓,清华大学
吴乐,合肥工业大学
马家祺,University of Illinois Urbana-Champaign, USA
何向南,中国科学技术大学
邱锡鹏,复旦大学

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-24 14:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社