|
引用本文
杜航原, 曹振武, 王文剑, 白亮. 融合知识的多视图属性网络异常检测模型. 自动化学报, 2023, 49(8): 1732−1744 doi: 10.16383/j.aas.c220629
Du Hang-Yuan, Cao Zhen-Wu, Wang Wen-Jian, Bai Liang. Multi-view outlier detection for attributed network based on knowledge fusion. Acta Automatica Sinica, 2023, 49(8): 1732−1744 doi: 10.16383/j.aas.c220629
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220629
关键词
属性网络,异常检测,图神经网络,知识融合,多视图学习
摘要
属性网络异常检测在网络安全、电子商务和金融交易等领域中具有重要的理论与现实意义, 近年来受到了越来越多的关注. 大多数异常检测方法凭借网络有限的属性或结构信息进行决策生成, 往往难以对异常模式做出可靠的描述. 此外, 网络节点对应的实体往往关联着丰富的领域知识, 这些知识对于异常的识别具有重要的潜在价值. 针对上述情况, 提出一种融合知识的多视图网络异常检测模型, 在多视图学习模式下通过数据与知识的互补融合实现了对异常节点的有效识别. 首先, 使用TransR模型由领域知识图谱抽取知识向量表示, 并借助输入网络的拓扑关系构造其孪生网络. 接着, 在多视图学习框架下构建属性编码器和知识编码器, 分别将属性网络及其孪生网络嵌入到各自的表示空间, 并聚合为统一网络表示. 最后, 综合不同维度上的重构误差进行节点异常分数评价, 从而识别网络中的异常节点. 在真实网络数据集上的对比实验表明, 提出的模型能够实现对领域知识的有效融合, 并获得优于基线方法的异常检测性能.
文章导读
属性网络[1]作为一种包含丰富语义信息的数据组织形式, 在现实世界中普遍存在, 例如社交网络、生物信息网络、电商网络等. 这些网络中的节点除了彼此关联形成拓扑结构外, 往往还伴随一组丰富的特征或属性. 例如, 社交网络中的用户之间存在好友关系, 用户自身还具有兴趣标签、职业和年龄等重要属性. 电商网络中的商品可能与其他商品被同一用户购买形成拓扑关系, 商品自身还具有价格、产地等属性信息. 属性网络具有建模现实世界复杂系统的强大能力, 近年来随着学术界和产业界的持续关注, 面向属性网络的异常检测问题也逐渐成为一个重要的研究领域.
属性网络异常检测的目标是识别与大多数节点具有显著差异的离群节点, 对于帮助决策者发现、管理和规避数据中的异常模式具有重要意义, 被广泛应用于诸多领域中. 例如, 对计算机网络中威胁网络安全的恶意软件或网络入侵的检测[2], 对电商网络中可能带给商家和客户巨大经济损失的欺诈行为的识别[3], 以及对社交媒体中恶意广告和垃圾邮件的过滤[4]等.
由于获取异常标记的成本十分高昂, 目前大多数检测方法主要以无监督学习模式实现异常节点的识别. 这些方法大体上可以分为浅层学习方法和深度学习方法. 其中, 浅层方法通常采用异常度评价、残差分析或局部上下文分析等策略发现异常对象. 例如, LOF[5]算法通过计算节点属性与其邻居的局部密度之间的距离, 在上下文中检测异常. Perozzi等[6]提出的AMEN方法, 基于邻域的内部相似性和外部分离性定义了normality指标, 将结构和属性结合起来量化属性邻域的质量, 将normality较低的低质量邻域识别为异常社区. Li等[7]构建了一种Radar框架, 该框架学习线性回归函数以拟合由网络结构正则化的节点属性, 回归函数的残差被用作衡量异常的分数. Gutierrez-Gomez等[8]提出一种能够在多个尺度进行网络异常检测的方法, 该方法利用信号平滑后节点存留的聚集性对异常节点进行刻画, 引入Markov稳定性框架进行社区发现, 以寻找异常所在的上下文结构.
受限于浅层学习机制对复杂分布和非线性问题有限的建模能力, 上述方法难以有效捕获网络中结构和属性不同信息模式之间的复杂交互关系. 深度学习模型凭借强大的表示学习能力和优秀的非线性决策能力, 能够在复杂的属性网络中为节点学习更为有效的表示. 为此, 一些研究尝试将深度神经网络用于解决属性网络上的异常检测问题. 例如, Chen等[9]设计了一种基于生成对抗属性网络的异常检测框架GAAN, 利用生成器产生伪节点, 在编码器对真实和伪节点进行编码后, 使用鉴别器区分给定的两个连通节点来自原始网络还是生成数据, 并综合样本重构损失和判别损失构造异常检测的优化目标. Ding等[10]提出一种基于自编码器框架的深度异常检测模型Dominant, 使用图卷积网络 (Graph convolutional network, GCN) 作为编码器将输入属性网络映射为低维嵌入. 解码器由网络嵌入重构拓扑结构和节点属性, 并通过重构误差来发现属性网络中的异常节点. Li等[11]提出一个基于谱卷积和反卷积的框架SpecAE, 将属性网络嵌入到隐空间中, 利用拉普拉斯锐化来放大异常嵌入与正常节点嵌入之间的距离, 并结合密度估计模型来实现异常检测.
尽管上述方法在一些属性网络异常检测任务上获得了成功的应用, 然而由于异常样本的稀缺性以及先验信息的有限性, 仅仅依赖网络数据本身仍然难以对异常的分布特性做出准确可靠的描述. 在许多实际场景中, 在网络数据之外, 还以其他形式存在着关于网络系统的领域知识描述. 例如, 电商网络中的商品除了包含属性信息外, 还蕴含着现实世界中各类与其相关的知识信息, 如图1所示. 网络数据和领域知识源于对同一复杂系统在不同视角下的描述与刻画, 网络数据本身是数据生成机制作用下形成的一种表现形式, 而这些数据所属领域的知识则可能隐含着揭示网络数据形成和异常节点产生背后机理的有用信息. 因此, 如何对领域知识进行有效融合与利用, 进而提高网络异常检测的有效性, 将成为一个极具价值的问题.
图 1 电商网络中的属性信息与知识
本文提出了一种融合领域知识的多视图异常检测 (Multi-view outlier detection based on knowledge fusion, MOD-KF) 模型. 该模型首先利用领域知识为属性网络构造孪生网络, 形成对该网络的多视图描述. 接着在多视图模式下学习网络的低维表示, 通过视图聚合将领域知识融入到节点的统一表示中. 最后从网络拓扑和节点特征两个维度进行网络的解码重构, 依据重构误差计算节点的异常得分, 实现对异常节点的识别. 通过对领域知识的融合, 该模型可以使网络表示中保留更多有助于下游决策生成的关键信息, 进而改善可用数据较少的情况下异常检测的决策有效性.
本文的主要贡献如下:
1) 设计了一个多视图决策框架, 将属性网络以及相关领域知识构建的孪生网络作为复杂系统在不同视图下的信息形式表现. 借助图神经网络学习二者的网络表示, 并通过视图聚合操作实现了网络数据和领域知识在决策生成中的有效融合.
2) 提出了一种融合领域知识的属性网络异常检测模型MOD-KF, 在图自编码器框架下, 以多视图的方式并行学习输入网络和孪生网络的表示, 丰富和完善了对网络中对象的描述, 使异常检测的有效性和可靠性得到提升.
3) 在真实网络数据集上对MOD-KF和几种异常检测基线方法进行了比较分析, 实验结果验证了该模型的有效性.
本文的结构组织如下: 第1节对相关工作进行了简要介绍; 第2节给出了问题定义; 第3节详细阐述了MOD-KF模型的构成及原理; 第4节通过实验对提出模型的有效性进行了验证; 第5节对本文的工作进行了总结和展望.
图 2 MOD-KF模型总体框架
图 3 各方法在不同数据集上的ROC曲线
针对网络异常检测中存在的有效信息不足、难以生成可靠决策的问题, 提出了一种融合领域知识的多视图属性网络异常检测模型MOD-KF. 该模型基于领域知识构造属性网络的孪生网络, 并通过多视图学习模式并行地学习属性网络与孪生网络的低维表示. 在对不同视图下网络表示进行聚合的基础上, 根据网络的重构误差建立异常评分机制实现对网络中异常节点的识别. 在真实属性网络数据集上的实验表明, MOD-KF模型能够实现异常检测性能的显著提升. 本文为网络数据的异常检测问题提供了一种新的研究视角, 在MOD-KF提供的框架下, 大量知识表示、编码网络、解码策略以及信息融合的相关成果都可用于该框架, 构建出符合需要的异常检测算法. 特别是, 通过设计融合交互机制、一体化优化目标以及相应的训练策略等, 提出的孪生网络构造方法可视作一种元知识抽取, 用作改善其他现有异常检测方法的性能.
在未来工作中, 我们将围绕以下问题进一步探索领域知识在网络异常检测中的应用: 1) 探寻领域知识与网络数据间的互作用机制, 进而解释网络数据形成与演化机理; 2) 领域知识与网络数据间一致性和互补性的量化分析, 这将有利于提升异常检测分析的有效性; 3) 借助领域知识进行模型决策解释, 以及构建解释性更佳的模型, 这将有利于揭示异常产生的机理, 形成对网络异常的根本性认知.
作者简介
杜航原
山西大学计算机与信息技术学院副教授. 主要研究方向为数据挖掘和机器学习. 本文通信作者. E-mail: duhangyuan@sxu.edu.cn
曹振武
山西大学计算机与信息技术学院硕士研究生. 主要研究方向为数据挖掘和机器学习. E-mail: caozhenwu_sxu@126.com
王文剑
山西大学计算机与信息技术学院教授. 主要研究方向为机器学习, 数据挖掘和人工智能. E-mail: wjwang@sxu.edu.cn
白亮
山西大学智能信息处理研究所教授. 主要研究方向为机器学习, 数据挖掘和数据科学与大数据计算. E-mail: bailiang@sxu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-8 12:14
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社