|
引用本文
王振东, 徐振宇, 李大海, 王俊岭. 面向入侵检测的元图神经网络构建与分析. 自动化学报, 2023, 49(7): 1530−1548 doi: 10.16383/j.aas.c200819
Wang Zhen-Dong, Xu Zhen-Yu, Li Da-Hai, Wang Jun-Ling. Construction and analysis of meta graph neural network for intrusion detection. Acta Automatica Sinica, 2023, 49(7): 1530−1548 doi: 10.16383/j.aas.c200819
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200819
关键词
入侵检测,元图神经网络,深度学习,图结构
摘要
网络入侵样本数据特征间存在未知的非欧氏空间图结构关系, 深入挖掘并利用该关系可有效提升网络入侵检测方法的检测效能. 对此, 设计一种元图神经网络(Meta graph neural network, MGNN), MGNN能够对样本数据特征内部隐藏的图结构关系进行挖掘与利用, 在应对入侵检测问题时优势明显. 首先, 设计元图网络层(Meta graph network layer, MGNL), 挖掘出样本数据特征内部隐藏的图结构关系, 并利用该关系对样本数据的原始特征进行更新; 然后, 针对MGNN存在的图信息传播过程中父代信息湮灭现象提出反信息湮灭策略, 并设计了注意力损失函数, 简化MGNN中实现注意力机制的运算过程. KDD-NSL、UNSW-NB15、CICDoS2019数据集上的实验表明, 与经典深度学习算法深度神经网络 (Deep neural network, DNN)、卷积神经网络(Convolutional neural network, CNN)、循环神经网络(Recurrent neural network, RNN)、长短期记忆(Long short-term memory, LSTM)和传统机器学习算法支持向量机(Support vector machine, SVM)、决策树(Decision tree, DT)、随机森林(Random forest, RF)、K-最近邻(K-nearest neighbor, KNN)、逻辑回归(Logistic regression, LR)相比, MGNN在准确率、F1值、精确率、召回率评价指标上均具有良好效果.
文章导读
网络技术高速发展的同时, 计算机病毒、网络入侵纷至沓来, 给网络安全带来极大挑战[1]. 对此, 国内外相关学者对入侵检测技术进行了深入研究, 提出了机器学习、数理统计、神经网络等[2-5]多种检测算法. 然而, 传统机器学习方法普遍强调对特征的选择和参数训练, 且运行时间成本较高; 而数据挖掘算法对噪声较为敏感, 面对噪声数据较多的数据集时易出现过拟合现象[6]; 深度学习方法擅长从海量、高维数据中提取特征信息, 降低噪声对算法性能的影响, 深度学习技术已在图像识别、图像分割、文本分析等领域得到了广泛的应用[7-9]. 通过设计合理的网络结构, 深度神经网络可有效控制神经网络的参数量, 确保网络性能的同时, 降低神经网络的运行成本[10].
目前, 多位学者使用深度神经网络, 如卷积神经网络(Convolutional neural network, CNN)、长短期记忆网络(Long short-term memory, LSTM)、循环神经网络(Recurrent neural network, RNN)设计了一系列入侵检测算法. CNN方法将一维入侵数据转换为二维 “图像数据”, 再利用CNN对入侵数据进行处理. 该方法考虑了卷积神经网络中卷积核内各特征间的相互作用[11], 特征数据不再孤立. 如文献[12]借鉴了Google团队提出的Inception结构, 设计了一种具有多种不同尺寸卷积核的卷积神经网络; 文献[13]基于LeNet-5设计了一种具有不同尺寸卷积核的深度卷积神经网络. 上述两种基于CNN的入侵检测算法均可通过不同尺寸卷积核提取特征间的相互关系, 但存在如下缺点: 1) CNN仅能处理欧氏空间数据, 难以挖掘任意两个特征数据间的复杂图结构关系; 2)大多数经典CNN模型(如VGG[14]、GoogLeNet[15]、ResNet[16]等)结构复杂、参数量大、运行时间成本高, 将经典CNN模型引入入侵检测领域需要着重考虑运行成本. RNN与基于RNN改进的LSTM神经网络算法将各样本特征数据视为序列数据, 并按照序列顺序输入LSTM与RNN. LSTM与RNN方法同样能够挖掘特征数据间的依赖关系, 文献[17-19]均利用LSTM/RNN挖掘出网络入侵数据特征值之间的相互关系, 均在入侵检测领域取得不错效果, 由于按照入侵检测数据集中特征数据排列顺序进行输入, 因此难以准确建立样本特征数据间的联系, 且此类算法同样只能处理欧氏空间数据, 同样难以挖掘任意两个特征数据间的复杂图结构关系.
事实上, 入侵检测数据集的各条样本均存在多个特征数据, 而不同特征数据间可能存在强弱关联, 该关联无法在欧氏空间进行精准的数学描述. 以NSL_KDD数据集为例, 该数据集样本中存在连接持续时间、协议类型、目标主机的网络服务类型、连接正常或错误的状态、数据的字节数、访问系统敏感文件和目录的次数、登录尝试失败的次数等41个特征数据. 其中, 连接持续时间与数据的字节数存在强关联关系, 而协议类型与目标主机的网络服务类型存在弱关联关系. 数据特征间的强弱关联构成非欧氏空间的图结构关系, 对该图结构的深入挖掘并将挖掘结果用于辅助神经网络的分类决策, 可有效提高神经网络的入侵检测性能. 目前, 处理非欧氏空间数据的深度学习典型方法为图神经网络(Graph neural network, GNN)[20-23], 但GNN只能处理样本间的已知图结构关系[20-23], 而对样本内部特征的图结构关系未知的场景无能为力.
对此, 本文设计了一种能够挖掘、处理样本数据间未知关联关系的新型神经网络 — 元图神经网络(Meta graph neural network, MGNN), 并将其应用于网络入侵检测. MGNN重新定义了网络内部的运算方式, 在样本的特征数据间图结构关系未知的前提下, 建立单条样本特征数据内部的图结构关系, 并实现对该图结构关系的深入挖掘. 在挖掘过程中, 利用梯度下降算法对图结构进行优化, 并根据祖孙节点间的图信息传播(Multi-generation graph information propagate between nodes, MPS)过程对图结构关系进行处理. 针对MPS过程可能出现的信息湮灭现象, 提出一种反信息湮灭策略. 为了更加精确地刻画特征数据间的强弱关联, 设计了注意力损失函数, 并通过影响图结构邻接矩阵实现对图结构关联关系的加强或削弱.
为了深入阐述MGNN的运行原理, 本文在第1节介绍了MGNN对特征数据未知图结构关系的处理方式, 并解释了未知图结构关系如何影响样本初代特征数据; 第2节对基于MGNN搭建的神经网络的消息前向传播过程和梯度信息反向传播过程进行了详细分析; 第3节指出了MGNN对样本特征数据的图结构关系处理中存在的不足, 并使用注意力函数机制与反信息湮灭策略进行改进; 第4节设计了多种基于MGNN搭建的神经网络, 并利用上述网络对UNSW_NB15、NSL_KDD、CICDoS2019三种入侵检测数据集进行实验测试, 验证MGNN在入侵检测领域的优越性能. 最后, 对全文进行了总结, 并对MGNN的下一步研究进行了展望.
图 1 MGNN结构与处理流程
图 2 MGNL中单代父子结点间信息传递结构
图 3 MGNN祖孙结点间信息传递结构
本文针对网络入侵检测场景设计了一种元图神经网络, 对图信息传播过程中出现的信息湮灭与注意力机制进行了理论分析. MGNN能够有效挖掘出入侵样本数据内特征数据间隐藏的复杂联系, 并利用上述联系辅助神经网络对入侵数据进行检测. 实验结果证明了相对于现有的深度学习算法及传统机器学习算法, MGNN具有更加优越的入侵检测性能. 作为一种新型的神经网络, MGNN在其他领域的应用尚未涉及, 基于MGNN的各种复杂网络结构尚处于开发状态. 未来将继续研究基于MGNN的神经网络结构, 尝试将MGNN与深度强化学习等新技术结合[37-38], 开发出更有效的深度学习算法, 完善MGNN的相关理论, 扩大MGNN的应用范围.
作者简介
王振东
博士, 江西理工大学信息工程学院副教授. 主要研究方向为无线传感器网络, 智慧物联网, 认知计算, 大数据与信息安全. 本文通信作者. E-mail: wangzhendong@hrbeu.edu.cn
徐振宇
江西理工大学信息工程学院硕士研究生. 主要研究方向为信息安全. E-mail: xuzhenyu0208@163.com
李大海
博士, 江西理工大学信息工程学院副教授. 主要研究方向为分布式系统服务质量(QoS)控制, 分布式系统自学习资源调度控制. E-mail: dlai6535@aliyun.com
王俊岭
博士, 江西理工大学信息工程学院副教授. 主要研究方向为分布式计算, 容错, 计算机视觉. E-mail: wangjunling@jxust.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-17 23:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社