博文

评价对象抽取研究综述

已有 721 次阅读 2023-12-20 13:19 |系统分类:博客资讯

引用本文

蒋盛益, 郭林东, 王连喜, 符斯慧. 评价对象抽取研究综述. 自动化学报, 2018, 44(7): 1165-1182. doi: 10.16383/j.aas.2017.c170049

JIANG Sheng-Yi, GUO Lin-Dong, WANG Lian-Xi, FU Si-Hui. Survey on Opinion Target Extraction. ACTA AUTOMATICA SINICA, 2018, 44(7): 1165-1182. doi: 10.16383/j.aas.2017.c170049

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c170049

关键词

评价对象抽取，细粒度情感分析，评测，资源建设

摘要

近年来，细粒度情感分析因其在商业决策、舆情分析等领域的重要作用而受到学术界和工业界的广泛关注.评价对象抽取作为情感分析的基本任务之一，是进行细粒度情感分析的关键问题.本文针对评价对象抽取问题的起源、当前主流研究方法和趋势进行了梳理，首先详细阐述评价对象抽取问题的基本概念并对其进行形式化表示，然后结合近年来的研究对评价对象抽取方法进行归纳和总结，并重点分析基于频率、基于模板规则、基于图论、基于条件随机场和基于深度学习的评价对象抽取方法，随后回顾评价对象抽取的评测情况和可用的语料资源，最后分析评价对象抽取的若干难点问题，同时对评价对象抽取研究进展和发展趋势进行总结和展望.

文章导读

评价对象抽取是情感分析(亦称意见挖掘[1-2])中的重要问题, 例如在产品评论中, "这手机的屏幕挺好的, 就是电池太不耐用了", "屏幕"和"电池"均为评价对象, 该评论对屏幕的情感倾向体现为正向, 对电池的情感倾向体现为负向, 但是按照传统的情感分析方法, 如果将评论文本看作一个整体, 便会造成分析结果准确率下降甚至错误.又如, 在新闻评论中, "可怜的孩子呀!一定要将罪犯绳之于法!", 评论者对孩子的情感为同情, 对罪犯的情感为憎恨, 评论文本对不同评价对象表达了不同的情感, 因此不能对整个句子进行情感分析, 需要首先抽取出句子中的评价对象, 然后再判别针对评价对象的情感倾向.评价对象抽取的有效解决有利于挖掘出不同对象的情感, 有助于对产品或公共事件进行细粒度的情感分析.

本文立足于国内外现有研究成果, 对评价对象抽取进行综述.第1节介绍评价对象的定义和抽取的形式化表示; 第2节按照研究者使用的主要技术对评价对象抽取方法进行详细归纳和梳理; 第3节介绍相关评测和语料资源; 第4节剖析评价对象抽取的难点问题; 第5节对领域内的研究进展进行总结, 并对未来的发展趋势进行展望.

图 1 语料级别和句子级别任务的区别

图 2 评价对象抽取研究方法概述

图 3 基于关联规则的抽取方法步骤

仁者见仁, 智者见智.同一事物, 不同的人在不同时间、不同场合很可能有不同的看法和意见.在当今互联网迅猛发展和网民意见井喷的时代, 大量的用户生成内容给我们对文本情感分析研究带来了机遇与挑战.情感分析任务通常可以分为评价人抽取、评价对象抽取、情感极性以及强度判别等子任务, 这些元素构成了一个完整的意见概念.评价对象抽取作为情感分析的子任务, 在细粒度情感分析中具有举足轻重的地位.本文对评价对象抽取问题的研究方法、研究现状、相关评测和难点问题进行了综述. 10多年来, 评价对象抽取在单领域和单语言语料上取得了一定的成果, 但许多研究尚处于起步阶段, 有许多问题亟待解决, 主要有以下几点:

1) 领域无关的评价对象抽取.领域无关的评价对象抽取一直是评价对象抽取的难点问题.目前的评价对象抽取几乎都限定在特定领域, 在评测中亦是如此.而针对特定领域的评价对象抽取方法在领域迁移时往往会遇到问题, 因此寻求自动、有效、领域无关的评价对象抽取方法具有非常重要的意义.无监督学习方法主要基于规则和语法关系, 依赖的领域知识相对较少, 因此对于解决领域无关的评价对象问题效果较好, 但泛化能力有限, 对于网络文本日新月异的表达方式和旧词新意等难以识别.如何将有监督学习方法的泛化优点与无监督学习方法的领域无关优点结合进行评价对象抽取是当前具有挑战性的问题, 也将成为今后的研究热点.

2) 跨语言评价对象抽取.有监督学习方法需要大量标注好的语料来训练模型以获得较高的准确率和召回率, 然而, 高质量、大规模的标注语料需要较多的人工, 且某些语言的语料严重匮乏, 不同语言之间训练语料规模的不平衡性成为制约评价对象抽取的一大障碍. Zhou等[56]提出了一种跨语言的解决方案, 仅利用一份已标注好的英文评论文本和一份未标注的中文评论文本, 通过Bing Translate和Co-training方法进行中文评论文本的评价对象抽取, 但效果不尽人意.挖掘不同语言之间在主观性文本中的共性与特征转换机制成为当前细粒度情感分析的趋势.

3) 评价对象聚类分析.网络用户评论具有更新速度快、数据量大等特点, 如何对海量评论进行准确、简洁的高质量意见聚合具有重要应用价值, 意见聚合的一个关键技术就是评价对象聚类分析.由于实用性, 其在情感分析和意见挖掘发展之初便受到学者的重视[57-60].在产品评论领域, 消费者对于产品的评价主要集中在有限的几个方面, 例如汽车产品的评论集中在外观、内饰、空间、配置、动力、性价比和售后等方面, 服装产品评价则主要在色彩、版型、材质、质量等方面, 常规的评价对象抽取方法会产生非常多的产品特征, 不利于消费者根据意见挖掘系统的结果对产品进行评价, 亦违背了产品评论挖掘的初衷, 因此对评价对象的聚类分析将成为重要研究内容.

基于以上分析, 未来研究工作可以围绕以下几个方面进行:

1) 基于规则的方法和基于统计的方法结合.从评价对象抽取问题提出以来, 学界一直致力于寻求更合适的语言规则和统计模型.基于规则的方法需要人工编写规则和模板, 需要耗费大量人力物力, 成本较高, 且系统泛化能力弱, 难以适应当前移动互联网时代涌现的各种新词和语言规则; 而基于统计的方法又难以精确地解决评价对象抽取问题.因此, 如何将规则和统计方法进行结合, 应是未来评价对象抽取问题的一个研究方向.

2) 统一通用的计算模型.目前评价对象抽取方法受限于特定领域, 是根据不同领域的语言特点特别定制的方法, 因此需要设计一个在广泛领域内、语言差异大的文本中均表现良好的方法, 例如给定任意评论文本和相关背景知识, 系统能给出这段评论文本描述的评价对象.如何从基于评价理论的角度将评价对象问题进行统一并考虑通用的计算模型, 对于进行开放领域的评价对象抽取研究具有重要意义.

3) 海量互联网数据的有效利用.随着互联网的发展, 用户生成内容呈指数级增长, 网络上充满了大量的未标注数据或以隐式形式存在的"自然标注"数据(例如由句子"轮胎等部件"可得知"轮胎"为汽车部件), 应用深度学习方法于这些数据, 可推进评价对象抽取的研究.

总之, 评价对象抽取是细粒度情感分析中极具挑战性的难题之一, 希望本文能给进入这一领域的研究工作者带来一定的参考和启发.

作者简介

蒋盛益

广东外语外贸大学信息科学与技术学院教授.主要研究方向为数据挖掘和自然语言处理.E-mail:jiangshengyi@163.com

王连喜

广东外语外贸大学图书馆副研究馆员.主要研究方向为数据挖掘, 特征选择和自然语言处理.E-mail:wanglianxi2012@163.com

符斯慧

广东外语外贸大学信息科学与技术学院硕士研究生.主要研究方向为文本情感分析和自然语言处理.E-mail:sihuifu93@outlook.com

郭林东

广东外语外贸大学信息科学与技术学院硕士研究生.主要研究方向为文本情感分析和自然语言处理.本文通信作者.E-mail:guolindong1992@gmail.com

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3291369-1414628.html

上一篇：德拜媒质微波加热过程的H∞保性能温度跟踪控制
下一篇：目标跟踪中辅助目标的选择、跟踪与更新

收藏 IP: 117.114.9.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

评价对象抽取研究综述

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

评价对象抽取研究综述

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)