||
Holistic Sentiment Analysis Across Languages: Multilingual Supervised Latent Dirichlet Allocation
本文提出一个概率生成模型MLSLDA,借助其可以通过训练、收集某一种语言的数据来达到模型具有捕获其他语言特性的功能。
MLSLDA完成上述功能主要通过融合文本的两个特性:
(1)如何将多语言概念聚成在主题层面上一致的话题;
(2)how topics associated with text connect to an observed regression variable (such as ratings on a sentiment scale)
文中concepts → general hierarchical framework, 可灵活的表达语义本体(semantic ontologies),词典,聚类约束以及一种退化情形下的一般话题模型。
之前的情感分析只限于单语言的(一般为英语),然而事实上没有一种单语言可以涵盖大部分互联网上的内容,因此多语言模型是非常必要的。
为解决上述问题,最初是通过知识迁移——resource-rich language→resource-less language(Banea et al., 2008),或者是忽略将不同语言翻译成英语之后的差异性(Denecke, 2008)。这些方法的缺点是:都仅限于以英语为中心的视角上,损失信息。
MLSLDA模型通过对“话题”的学习为多语言情感提供了一个一致性视角。只需要对可用数据源进行很少的假设,不需要parallel copora和机器翻译。
1. Predictions from Multilingual Topics
MLSLDA输入:未标记的文档数据集。
MLSLDA输出:一系列“话题”,每篇文档上标记的话题(都以概率的形式表示,话题-单词概率分布矩阵 以及 文档-话题 概率分布矩阵)。
1.1 捕获语义相关性
单语言模型中,话题通常服从一个狄利克雷分布。原因:(1)使得稀疏先验的指定比较容易(2)推理比较容易,因为狄利克雷分布是多项分布的共轭分布。 但是狄利克雷分布对于包含多语言的词汇来说是不可行的。
所建模型应该满足每种语言上的话题的一致性。狄利克雷分布不能将不同元素之间的相互关系包含进来。
一种解决办法:用多元正态分布!进而产生相关性多项分布。但是采用这种方法的模型不是在共轭条件下完成的推理过程。
本文:tree-based extensions of the Dirichlet distribution.
Key idea:假设所有语言的词汇通过一个用树表达出来的共享语义结构组织起来。通过WordNet,当做语义传播的纽带。
WordNet的语义结构是语言独立的,因为其不同的“近义词集合”可以通过其他的 语言以相同的结构表达出来。(比如:中文也可以表示 a “dog” is a “canine” is an “animal” is a “living thing,”)。这里我查了一下WordNet中的hyponomy relationship可以理解为上/下位关系,或者说是蕴含关系,也就是前面说的“is a”关系。
根据WordNet的结构,可以描述多语言词库上生成一个分布的过程,使其只关注不同单词之间的语义相关性,忽略单词属于哪门语言。对每个近义词集合h,创建一个多语言单词分布,如下:
为简洁,以上生成过程记做 ,即multilingual Dirichlet
hierarchy。 每个被观察到的标记都可以看成是一个访问过的近义词集合λ的序列的最终结果。因为是个树,可以把每个被观察到(终止节点)之前访问过的节点看成是一条路径: (1)对树的每个节点,这个路径终止于此节点的概率是 ,否则其继续以 的概率转移至其某个孩子近义词集合。
(2)如果路径继续(就是没有终止,继续转移),则其会以 的概率访问子节点j。
(3)如果路径终止于某近义词集合节点,则会以 的概率生成单词k。
综上,一条语言为l,访问过近义词集合r并结束于近义词集合h的路径产生出一个单词的概率可以记做:
本文模型MLSLDA是对SLDA的扩展(多语言上的全局一致性,通过使用bridging方法达到)。模型:(1)会生成多语言的文档,(2)为每篇文档进行一个实数打分。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-17 10:24
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社