|||
2019年10月15日晚上,“糖果之家”相约星期二,“大数据与智能决策”讨论班(Seminar)继续开讲,本次讨论班以意见挖掘与文本情感分析为题,共讨论了一篇文献,由博士生进行讲解,共有青年教师、博士后、博士生和硕士生20人参加,以下是意见挖掘与文本情感分析的内容简介。
意见挖掘与文本情感分析
意见挖掘又称文本情感分析,是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。意见挖掘的目标是从文本中分析出人们对于实体及其属性所表达的观点、情感、评价、态度和情绪。这些实体可以是各种产品、服务、机构、个人、事件、问题或主题等。
意见挖掘包含很多相关研究任务,例如观点分析、观点信息抽取、情感挖掘、主观性分析、倾向性分析、情绪分析以及评论挖掘。产业界通常把这一研究领域称为情感分析,但在学术界,这一研究领域除了被称为情感分析外,还被称为意见挖掘或观点挖掘。
意见挖掘伴随着网络社会媒体的兴起而快速发展。人们在网络社会媒体发表信息的主要目的是表达他们的意见和观点,因此,网络社会媒体中的用户生成内容蕴含了大量的用户观点信息。要从用户生成内容中挖掘出有用的信息和知识,就需要对意见挖掘与情感分析问题进行研究,这已经成为网络社会媒体分析的核心问题。近年来,意见挖掘已经成为自然语言处理领域最活跃的研究问题之一。在数据挖掘、文本挖掘、网络挖掘和信息检索领域中,针对意见挖掘的研究也得到了广泛关注。
图1 “炸机门”事件的微博评论情感分析
文献:Xu Hu, Liu Bing, Shu Lei and Philip S. Yu. Double Embeddings and CNN-based Sequence Labeling for Aspect Extraction [c].Proceedings of Annual Meeting of the Association for Computational Linguistics,2018.
根据所处理文本的粒度,情感分析研究可以划分为三个级别:文档级、句子级和方面级。文档级情感分析的目标是判别整篇文档表达了褒义倾向还是贬义倾向。句子级情感分析任务是判别一个句子是否表达了褒义、贬义或者中性情感。方面级情感分析的目标是挖掘与发现评论在实体及其属性上的观点信息。方面级情感分析包括两个关键问题:方面抽取和方面级情感分类。
方面抽取的目的是从观点文本中抽取观点目标(方面)。在产品评论中,方面指产品的属性或特性。方面抽取通常有两类方法:有监督的方法和无监督的方法。目前,有监督的深度学习模型实现了最好的效果。这些模型很多用了手工特征,词典和复杂的神经网络结构。尽管这些方法比之前研究工作的性能更好,仍有两点重要考虑。(1)自动特征学习总是优先考虑。(2)简单模型总是比复杂模型优先考虑。为解决第一点考虑,本文提出一种双层嵌入机制。为解决第二点考虑,论文用纯CNN模型进行序列标注。
图2 双层嵌入CNN(DE-CNN)模型
论文提出了名为双层嵌入CNN(DE-CNN)模型。这是首篇用双层嵌入机制和纯基于CNN序列标注模型来进行方面抽取的文献。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 16:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社