IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

联合嵌入式多标签分类算法

已有 2668 次阅读 2020-1-3 16:13 |系统分类:博客资讯

现存的多标签分类算法可分为两大类:问题转化法(Problem Transformation Methods,简称PTM)和算法改编法(Algorithm Adaption Methods,简称AAM)。PTM在解决多标签分类问题时,算法具有简单,易于理解与实现等优点。但PTM缺点也比较明显,如基于二元相关的方法忽略了标签间关系;基于链式标签法的算法,性能完全依赖于链式标签排序,但最优排序未知。AAM通过改进已有的机器学习算法来解决多标签学习问题,如基于SVM改进的RankSVM算法、基于KNN改进的IMLLA算法及基于朴素贝叶斯改进的NBML算法;这些改进型的算法避免了为每个标签单独学习而忽略了标签间的关系,但当遇到具有高维特性的多标签数据时,不仅需要较大的时间消耗,性能还会有所损失。

为了解决PTM与AAM面临的问题,考虑到矩阵分解技术的优势,本文提出基于去噪自编码器(Stack Denoising AutoEncoder, 简称SDAE)和矩阵分解的联合嵌入学习算法Deep AE-MF,算法模型图如下图所示。

该算法不但能够得到一个具有深层语义的文本表示,还能在降低时间复杂度的同时探索标签间的关系。它能够将SDAE对特征学习到的深层语义低维表示和矩阵分解得到的标签低维表示联合在一起共同学习,得到一个高效的多标签分类模型。与BR法对比,Deep AE-MF在学习时能够利用矩阵分解技术对标签间的关系进行间接探索;与AAM相比较,Deep AE-MF使用SDAE技术对特征进行了非线性学习,得到了深层语义的文本表示;与特征/标签嵌入类算法相比,Deep AE-MF整合了SDAE和矩阵分解两种技术对特征与标签同时进行联合嵌入学习,使得模型的预测与嵌入两个学习阶段同时进行。 



多标签数据集中有相当一部分比例的样本含有的标签数量少于2,因此,在对Deep AE-MF模型进行训练学习时,由于缺少丰富的标签共现信息(即标签间的正相关信息)不能对标签间的正相关信息进行有效探索与利用,限制了模型的性能;然而,这些所含标签数量少于2的样本,却拥有着丰富非共现信息(即标签间的负相关信息)。为了能够有效的利用标签间的这种负相关信息,本文在Deep AE-MF模型中引入标签负采样策略,为每个实例xi采样其对应的负相关标签并用于模型训练学习,提出优化模型Deep AE-MF+neg。


为了验证本文提出的Deep AE-MF和Deep AE-MF+neg方法的性能,选取了6个多标签数据集进行实验测试,分别为enron、ohsumed、movieLens、Delicious、EURLex-4K和TJ,其中前5个是英文类型的多标签数据集,最后一个则是中文类型数据集。实验结果如表1到表5所示。


1.jpg

2.jpg

3.jpg

4.jpg

5.jpg


表1至表5中在5种评价标准上的实验结果显示,提出的Deep AE-MF和Deep AE-MF+neg的方法明显优于其对比种算法。在联合嵌入学习过程中,SDAE得到的非线性表示,矩阵分解直接得到的低维标签表示C和解码矩阵D,有利于学习找到一个泛化能力更好的分类模型。从表中可以看出Deep AE-MF+neg的性能几乎一直优于Deep AE-MF,表明在对标签嵌入时利用标签之间的非共现信息可以进一步提高算法的性能。


引用格式:刘慧婷, 冷新杨, 王利利, 赵鹏. 联合嵌入式多标签分类算法. 自动化学报, 2019, 45(10): 1969-1982.


链接:http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180087


作者简介


刘慧婷,女,1978 年生, 博士、副教授、硕士生导师、主要研究方向为数据挖掘、机器学习. 本文通信作者.

E-mail: htliu@ahu.edu.cn



冷新杨,男,1992 年生, 硕士, 主要研究领域为机器学习, 文本分类.

E-mail: lxy_un@126.com



王利利,女,1992 年生, 硕士, 主要研究领域为机器学习, 数据挖掘.

E-mail: 544936872@qq.com



赵鹏,女,1976 年生, 博士、副教授、硕士生导师,主要研究方向为智能信息处理,机器学习.

E-mail: zhaopeng ad@163.com




https://blog.sciencenet.cn/blog-3291369-1212734.html

上一篇:JAS&《自动化学报》新年祝福!
下一篇:交通流动态扰动下的区域交通信号协调控制
收藏 IP: 103.254.68.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-28 00:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部