IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

一种同伴知识互增强下的序列推荐方法

已有 1029 次阅读 2023-8-2 16:32 |系统分类:博客资讯

引用本文

 

胡开喜, 李琳, 吴小华, 解庆, 袁景凌. 一种同伴知识互增强下的序列推荐方法. 自动化学报, 2023, 49(7): 14561470 doi: 10.16383/j.aas.c220347

Hu Kai-Xi, Li Lin, Wu Xiao-Hua, Xie Qing, Yuan Jing-Ling. A sequential recommendation method enhanced by peer knowledge. Acta Automatica Sinica, 2023, 49(7): 14561470 doi: 10.16383/j.aas.c220347

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220347

 

关键词

 

序列推荐,动态兴趣,知识蒸馏,刻意训练 

 

摘要

 

序列推荐(Sequential recommendation, SR)旨在建模用户序列中的动态兴趣, 预测下一个行为. 现有基于知识蒸馏(Knowledge distillation, KD)的多模型集成方法通常将教师模型预测的概率分布作为学生模型样本学习的软标签, 不利于关注低置信度序列样本中的动态兴趣. 为此, 提出一种同伴知识互增强下的序列推荐方法(Sequential recommendation enhanced by peer knowledge, PeerRec), 使多个具有差异的同伴网络按照人类由易到难的认知过程进行两阶段的互相学习. 在第1阶段知识蒸馏的基础上, 2阶段的刻意训练通过动态最小组策略协调多个同伴从低置信度样本中挖掘出可被加强训练的潜在样本. 然后, 受训的网络利用同伴对潜在样本预测的概率分布调节自身对该样本学习的权重, 从解空间中探索更优的兴趣表示. 3个公开数据集上的实验结果表明, 提出的PeerRec方法相比于最新的基线方法在基于Top-k的指标上不仅获得了更佳的推荐精度, 且具有良好的在线推荐效率.

 

文章导读

 

随着互联网、5G等信息技术的快速发展, 信息系统记录了大量的用户行为, 例如购物[1-2]、点击浏览[3-5]、移动位置[6-7]. 人们将用户行为按发生的时间先后顺序排列, 可构成隐含用户兴趣的行为序列[8-10]. 序列推荐(Sequential recommendation, SR)旨在建模行为序列中动态兴趣的演变关系, 从候选集中预测下一个行为, 已广泛用于各类Web应用, 帮助人们解决信息过载的问题. 作为一项基础技术, 序列推荐备受学术界和工业界关注, 并逐渐推广到更多应用场景.

 

近年来, 深度学习通过层次化地建模序列数据中行为演变的特征表示, 在捕获用户兴趣方面表现出了优越性[1, 3, 5, 10-11]. 然而, 现实世界中用户与行为的交互是在该用户当时兴趣的影响下产生的, 具有动态不确定的特点[12-15]. 以图1中的电影推荐为例, 假设用户按时间顺序观看了不同类型的电影(喜剧片m1, 恐怖片m2, 爱情片m3), 则历史的行为序列反映出了多种用户兴趣, 导致下一个行为的产生存在多种可能性(恐怖片m4或喜剧片m5). 在学习兴趣演变关系的过程中, 采用固定向量表示的单模型通常不足以建模行为背后隐含的动态兴趣, 使模型的精度提升有限. 此外, 用户观影行为较少时, 通过行为序列分析的用户兴趣也会更加不确定. 在行为序列提供信息有限的情况下, 如何通过建模用户动态兴趣缓解模型不确定性[16], 是一个具有挑战性的问题.

 1  用户动态兴趣在潜在空间中的表示与推断

 

目前, 大多数序列推荐方法[1, 9, 17]通过建模行为序列在特征空间中的固定向量表示, 并引入额外的用户信息来帮助预测模型学习用户兴趣. 在不引入额外信息的情况下, 最近的研究工作[13-15]利用分布函数表示用户兴趣, 使学习到的兴趣表示可以覆盖更大的行为序列空间. 如图1(a)所示, 每个观影行为隐含的动态兴趣都可以用一个分布函数来表示, 最后通过积分计算推断的兴趣分布表示与观影行为向量表示(三角形)之间的距离预测下一个行为. 但是在模型参数中引入分布函数, 主要存在以下不足: 1) 通常需要预设一种先验的分布形式, 但只有少数几种分布可以求出积分的闭式解, 对更复杂的分布需要近似求解[15]; 2) 分布函数倾向于在有限的函数空间(兴趣表示空间的实线上)探索用户兴趣, 对模型精度的提升有限[18-19].

 

针对上述分布函数的不足, 计算机视觉领域的工作[20-22]通常采用多模型集成的方式建模图像中的不确定性, 并验证了随机初始化和扰乱数据样本的顺序就足以获得较好的性能[20]. 如图1(b)所示, 采用多模型集成建模动态兴趣时, 模型可以在不同的训练迭代中探索分布函数(虚线)以外的点, 并通过融合不同的模型推断更优的固定向量来表示用户兴趣. 同时, 为了提升模型在测试阶段的效率, 计算机视觉[22]、自然语言处理[23-24]和推荐[25-26]等领域的工作都表明知识蒸馏(Knowledge distillation, KD)[27]是一种有效的融合方式, 可以通过拉近两个模型兴趣表示的距离, 将多个教师模型的知识迁移到学生模型. 但是, 传统的知识蒸馏将教师模型预测的概率分布作为学生模型学习的软标签[28], 导致学生模型更倾向于从教师模型输出的高置信度样本中获取知识[29-30]. 由于用户的行为序列具有动态不确定的特点[16], 在训练过程中如果教师模型学习的用户兴趣表示距离真实发生的下一个行为(Ground-truth)较远就会使模型产生低置信度, 而低置信度的样本中通常也包含可被加强训练的样本(潜在样本), 可以提供更加丰富的信息, 帮助模型学习分类决策边界即类间信息[31]. 传统的知识蒸馏未能有效地从这些潜在样本中学习动态兴趣, 影响了推荐的精度.

 

为了缓解上述问题, 本文提出一种同伴知识互增强下的序列推荐方法(Sequential recommendation enhanced by peer knowledge, PeerRec). 该方法首先设计了多个结构相同但随机初始化参数不同的同伴网络, 使每个同伴网络学习差异化的兴趣固定向量表示. 其次, 按照课程学习[32]由易到难的认知过程, 本文通过第1阶段的知识蒸馏[27]关注同伴输出的高置信度样本, 以模仿训练的方式拉近兴趣表示的距离. 然后, 在此基础上提出了第2阶段基于刻意训练[33]的互相学习, 通过动态最小组策略将多个同伴组成学习共同体, 从低置信度样本中挖掘过滤噪音后的潜在样本, 推动模型在解空间中探索更优的兴趣表示. 相比于最好的基线方法, 本文提出的方法在推荐性能和在线推断效率上均具有优势. 总体而言, 本文的主要贡献如下:

1) 分析并总结了序列推荐中用户动态兴趣导致行为序列具有不确定的特点, 提出了一种同伴知识互增强下的序列推荐方法, 利用多个同伴建模差异化的用户兴趣固定向量表示, 并按照人类由易到难的认知过程互相学习, 共同提升序列推荐的精度;

2) 提出了一种基于刻意训练[33]的互相学习方法, 在知识蒸馏的基础上进一步通过动态最小组策略增强模型对潜在样本中动态兴趣的学习;

3) 公开的ML-1mLastFMToys数据集上的实验结果表明, 提出的PeerRec方法相对于最新的序列推荐方法在NDCG@5指标上分别提升了9.02%5.03%1.31%, 且具有良好的推荐效率.

 

本文内容安排如下: 1节为现有序列推荐方法及以知识蒸馏为代表的知识迁移方法的概述; 2节介绍问题定义、总体框架及PeerRec模型的网络结构; 3节重点阐述同伴知识互增强的训练, 并进一步讨论模型在互相学习过程中的梯度变化; 4节介绍数据集、实验设置、评价指标及分析结果; 5节总结全文工作并展望未来的研究方向.

 2  PeerRec模型的网络结构

 3  基于刻意训练的互相学习

 

本文针对序列推荐任务中, 由用户动态兴趣导致的行为序列建模不确定性问题进行研究, 提出了一种同伴知识互增强下的序列推荐方法(PeerRec). 该方法结合多个同伴网络和同伴知识互增强的训练, 允许多个同伴在同一框架下互相学习, 通过交换不同用户兴趣表示预测的概率分布, 优化自身对用户动态兴趣的建模. 通过同伴知识互增强的训练, 所有同伴网络的推荐性能可以得到共同提升, 且在测试阶段仅保留任意一个同伴网络, 可以获得良好的在线推荐效率. 3个公开数据集上的实验结果表明了本文提出的PeerRec方法的优越性.

 

本文的后续工作将从两方面展开. 一方面, PeerRec模型主要关注序列的下一个行为. 然而, 实际场景需要考虑更多的状况, 如多个用户之间的关联、连续行为的预测. 如何扩展PeerRec模型到多模态序列推荐、序列到序列(Seq2Seq)推荐等复杂的序列任务依然存在挑战. 另一方面, 2阶段刻意训练虽然可以有效弥补第1阶段知识蒸馏的不足, 但这种分开训练的方式粒度较粗, 为进一步研究知识蒸馏内部机制留下了空间.

 

作者简介

 

胡开喜

武汉理工大学计算机与人工智能学院博士研究生. 2018年获得重庆大学控制工程硕士学位. 主要研究方向为序列预测. E-mail: issac_hkx@whut.edu.cn

 

李琳

武汉理工大学计算机与人工智能学院教授. 2009年获得日本东京大学博士学位. 主要研究方向为信息检索, 推荐系统. 本文通信作者. E-mail: cathylilin@whut.edu.cn

 

吴小华

武汉理工大学计算机与人工智能学院博士研究生. 2019年获得西北大学计算机科学与技术硕士学位. 主要研究方向为可解释机器学习. E-mail: xhwu@whut.edu.cn

 

解庆

武汉理工大学计算机与人工智能学院副教授. 2013年获得澳大利亚昆士兰大学博士学位. 主要研究方向为流数据挖掘与模式分析. E-mail: felixxq@whut.edu.cn

 

袁景凌

武汉理工大学计算机与人工智能学院教授. 2004年获得武汉理工大学博士学位. 主要研究方向为分布式并行计算. E-mail: yjl@whut.edu.cn



https://blog.sciencenet.cn/blog-3291369-1397640.html

上一篇:基于元学习的双目深度估计在线适应算法
下一篇:基于辅助信息补偿和控制信号编码的重放攻击检测方法
收藏 IP: 222.131.242.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-22 20:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部