|||
前一阵子在微博评论上做词项级的情感分析,手法十分简单,对评论中出现的词项,查找其在词典中的情感分级,然后对整个评论进行情感判定。最近查找了情感分析的相关文章。
根据情感分析(观点挖掘)的定义,其任务在于发现评论者对于特定产品的观点。人的决策过程受到思想领袖和普通大众共同营造而成的观点的影响。当人们打算在线购买一件产品时,通常会从查看其他人发表的各种评论开始。情感分析是计算机科学的一个热门研究领域,关于它已经出现了7000多篇论文。许多初创公司正在开发情感分析解决方案,一些主流统计软件,如SAS和SPSS,都包含专用的情感分析模块。
情感分析的最常见应用是消费产品和服务的评论。许多网站会对产品和产品特定属性的评论进行自动汇总,这方面的典型例子是“Google产品搜索”。
通常,句子按照其主观性被划分为两个主要类别:客观句和主观句。客观句包含事实信息,主观句包含对特定对象的明确的观点、信念和看法。耶路撒冷希伯来大学教授Ronen Feldman的研究大多数以主观句为核心。
文档级情感分析
这是情感分析的最简单形式,其假定条件是文档中包含了文档撰写者针对一个主要对象表达的一个观点。这方面已经有大量论文问世。文档集情感分析有两种主要的方法:监督学习和非监督学习。
句子级情感分析
一篇文档可能包含多个观点,即使对于同一对象也是如此。如果我们希望对文档中表达的不同观点有更细致的观察,就必须提高句子级分析。
基于属性的(Aspect-based)情感分析
前两种方法在整个文档或单个句子指向单一对象时十分有效。不过很多时候,人们所谈论的对象有很多不同的方面(属性),对于这些不同的方面,人们各自有不同的观点。产品评论或特定产皮类别论坛中常常出现这种情况,如汽车、摄像机、手机等。
比较式情感分析
对于一件产品,人们往往不说出直接观点,而是说出比较观点,请看这些取自Edmonds.com用户论坛的例子:“300C Touring汽车看上去比Magnum好多了”,“我开过本田思域,它的性能并不比TSX好,甚至不在同一个档次。”在这种情况下,情感分析系统的目标是识别出包含比较观点的句子,然后提取每一种观点的倾向对象。
关于情感分析尚有许多研究领域有待完成,包括以下6个方面:
1.需要面向综合情感建立更好的模型。在句子级上,这意味着对语气词(Sentiment-bearing Words)、情感转移因素(SentimentShifters)以及句子结构的整体情感进行更精确的计算。
2. 即使在同一份文档中或在标示明确的参考文档中,每一件产品都有好几个名称。
3. 在文档内容设计多个对象时,人情文本与每个对象的关系至关重要。目前,相关文本的识别正确度还远远谈不上让人满意。
4. 对于冷嘲热讽,尽管可以利用归类法加以识别,但这些方法尚未集成到自动情感分析系统中。
5. 对于大多数情感分析系统,噪声文本(打字错误、语法错误、缺失标点等)仍是一个大问题。
6. 许多管与对象的陈述实质上很客观,但仍然带有情感因素,这在新闻报道中很常见。目前的情感分析方法确定的是主观陈述的情感,却忽略了这一类客观陈述。需要找到一种算法,借助上下文将情感分值赋予客观描述
摘自《程序员》
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 03:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社