|
引用本文
余正飞, 闫巧, 周鋆. 面向网络空间防御的对抗机器学习研究综述. 自动化学报, 2022, 48(7): 1625−1649 doi: 10.16383/j.aas.c210089
Yu Zheng-Fei, Yan Qiao, Zhou Yun. A survey on adversarial machine learning for cyberspace defense. Acta Automatica Sinica, 2022, 48(7): 1625−1649 doi: 10.16383/j.aas.c210089
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210089
关键词
网络空间防御, 对抗机器学习, 投毒攻击, 规避攻击, 对抗样本
摘要
机器学习以强大的自适应性和自学习能力成为网络空间防御的研究热点和重要方向. 然而机器学习模型在网络空间环境下存在受到对抗攻击的潜在风险, 可能成为防御体系中最为薄弱的环节, 从而危害整个系统的安全. 为此科学分析安全问题场景, 从运行机理上探索算法可行性和安全性, 对运用机器学习模型构建网络空间防御系统大有裨益. 全面综述对抗机器学习这一跨学科研究领域在网络空间防御中取得的成果及以后的发展方向. 首先, 介绍了网络空间防御和对抗机器学习等背景知识; 其次, 针对机器学习在网络空间防御中可能遭受的攻击, 引入机器学习敌手模型概念, 目的是科学评估其在特定威胁场景下的安全属性; 然后, 针对网络空间防御的机器学习算法, 分别论述了在测试阶段发动规避攻击、在训练阶段发动投毒攻击、在机器学习全阶段发动隐私窃取的方法, 进而研究如何在网络空间对抗环境下, 强化机器学习模型的防御方法; 最后, 展望了网络空间防御中对抗机器学习研究的未来方向和有关挑战.
文章导读
近年来, 人工智能、云计算、大数据、物联网、区块链等新一代信息技术突飞猛进, 信息化和工业化深度融合, 各类安全事件和网络攻击频繁发生, 网络空间面临严重的安全威胁. 2016年, 由恶意软件Mirai控制的僵尸网络发起分布式拒绝服务攻击, 造成美国东海岸大范围断网[1]. 2017年, 勒索病毒软件WannaCry通过“永恒之蓝” MS17-010漏洞在全球范围大规模爆发, 至少150个国家、30万名用户被感染, 造成经济损失高达80亿美元[2]. 2019年, 中国网络空间研究院编写的《中国网络空间安全发展报告(2019)》指出: 网络冲突和攻击成为国家间对抗主要形式[3]. 据不完全统计, 中国每年因伪基站、恶意软件勒索等数字犯罪造成的损失达上百亿元[4].
上述事例表明, 网络空间安全不仅影响着国民经济的发展, 还关系着社会的稳定和国家安全. 事实证明,“被动防守永远无法确保安全”, 传统的以固定规则设定的网络空间防御体系变得效率低下, 在面对“零日”漏洞以及各种高级可持续威胁时常常无能为力, 网络空间防御面临严峻挑战.
与此同时, 计算机算力的显著提升和数据量的日益递增, 带动了机器学习的快速发展, 人工智能迎来第三次发展浪潮. 以深度学习为代表的机器学习作为当前人工智能领域最热门的研究方向之一, 在计算机视觉、语音识别、自然语言处理等方面取得了一系列令人瞩目的研究成果, 成为引领未来的战略性技术.
机器学习技术在处理分类任务和决策问题时展现的突出能力, 成为网络空间防御中应用的新技术. 利用机器学习技术构建“关口前移, 防患于未然”的积极防御战略, 提高网络空间安全监测和处理的效率, 得到学术界、工业界的广泛关注. 当前, 基于机器学习的网络空间安全研究在系统安全、网络安全及应用安全等层面已有不少解决方案和方法, 在包括垃圾邮件过滤、恶意软件检测、网络入侵检测、漏洞分析与挖掘等领域均取得了不错的效果[4]. 可以预见, 引入机器学习来解决网络空间安全问题是不容置疑的趋势, 机器学习在网络空间防御中的应用前景也会不断扩展.
值得注意的是, 将机器学习应用于网络空间防御问题并非新概念. 近年来, 各主流网络安全公司纷纷尝试利用机器学习改进或重制其安全产品. 然而, 利用机器学习解决网络空间防御问题仍处于初级阶段. 从模型的泛化能力、检测准确度以及实时性来看, 目前的技术解决方案均不能较好满足网络空间防御的应用需求. 导致这一现象的原因一般可概括为机器学习算法的安全性、功能及性能三个方面. 安全性是机器学习在网络空间防御应用首先应解决的基础性问题. 面向网络空间防御的机器学习需要在对抗多变的环境中处理大量数据, 对算法的安全性要求极为严苛. 在算法安全性得到保障的基础上, 机器学习的功能才可以得以实现. 在算法安全性和算法功能实现的基础上, 算法自适应性、可解释性等问题需要加以关注.
不幸的是, 机器学习本身存在易受对抗攻击的安全隐患. 网络空间更是高对抗环境, 无时无刻不在发生力量之间的相互对抗, 机器学习在这样的对抗环境下具有高度的脆弱性, 存在受到对抗攻击的潜在风险, 可能成为网络空间防御体系中最为薄弱的环节, 从而危害整个系统的安全. 例如, 机器学习模型训练过程中利用大量的网络流量、日志信息、系统信号等非结构化数据, 对这些输入数据进行投毒攻击, 会使得模型无法取得良好效果. 此外, 研究显示, 机器学习相关算法能够轻易地被对抗样本操控, 将对抗样本作为输入, 即使其中仅包含人类难以察觉的轻微扰动, 也会导致系统性能明显下降. 利用机器学习解决网络空间安全问题仍是极具挑战性的工作.
为应对以上挑战, 研究人员着手开展对抗机器学习相关研究, 提高机器学习算法在网络空间防御中的鲁棒性, 推动机器学习相关算法的应用[5-10]. 网络空间中广泛存在的对抗使得机器学习的应用面临严峻挑战. 以对抗样本生成和防御为中心的对抗深度学习, 无疑是对抗机器学习领域当前最受关注的研究热点. 然而, 网络空间是“没有经过勘测的深海”, 科学分析安全问题场景, 从运行机理上展开研究, 探索机器学习算法应用的可行性, 对于机器学习在网络空间防御中的应用大有裨益.
1)对抗机器学习相关综述. 随着对抗机器学习研究的深入, 相关研究成果不断涌现. 为此, 众多学者展开了对抗机器学习的综述工作, 对该领域进行了归纳与总结, 典型的综述文献及主要内容如表1所示. 在已有的综述文献中, 部分综述性工作从总体上对机器学习模型[7, 11-17]或深度学习模型[18-21]的对抗攻击和防御展开论述, 如文献[7]从对抗机器学习演进路线切入, 论述机器学习的攻防问题, 应用范围包括计算机视觉及网络安全, 文献[19]详尽论述深度学习中的对抗样本生成与防御技术; 部分综述性工作[17, 22-23]围绕对抗机器学习中的隐私攻防进行了论述. 上述综述对通用机器学习模型和深度学习模型的对抗攻防问题进行了论述. 值得注意的是, 机器学习算法在与具体应用领域结合时, 往往具有鲜明的领域特点. 为此, 部分综述性工作围绕机器学习应用于各领域时的攻击与防御问题进行了研究, 主要包括计算机视觉[24-27]、自然语言处理[28]、生物医疗[29-31]等, 较好地论述了各自领域所带来的新特点与新问题. 同时, 也有部分工作围绕网络空间防御中基于机器学习的入侵检测系统[32]、恶意软件检测[33]对抗攻击与防御问题进行论述. 然而, 没有相关研究就机器学习在网络空间防御应用中存在的对抗攻击与防御进行综述. 本文在详尽调研与检索相关论文的基础上, 首次从网络空间防御这个角度切入, 开展对抗机器学习综述.
2)论文选取范围. 本文的综述范围主要是国内外人工智能和信息安全领域顶级会议和期刊, 包括安全与隐私专题研讨会(IEEE Symposium on Security and Privacy, S&P)、计算机和通信安全会议(ACM Conference on Computer and Communications Security, CCS)、安全专题研讨会(Usenix Security Symposium)、网络与分布式系统安全研讨会(ISOC Network and Distributed System Security Symposium, NDSS)等国际信息安全四大会议, 另外还有学习表征国际会议(International Conference on Learning Representations, ICLR)、知识发现与数据挖掘(ACM Knowledge Discovery and Data mining, KDD)、神经信息处理系统年会(Annual Conference on Neural Information Processing Systems, NeurIPS)、国际人工智能联合会议(International Joint Conference on Artificial Intelligence, IJCAI)、人工智能大会(AAAI Conference on Artificial Intelligence, AAAI)等人工智能领域顶级会议, 以及国内计算机领域部分重要刊物. 另外, 部分预印版论文对该方向研究有较大影响, 本文选取部分质量较好、方法较新、引用较高的预印版论文进行论述.
3)本综述的主要贡献. 本综述以网络空间防御为问题背景, 全面综述机器学习在网络空间防御中可能遭受的对抗攻击、可采取的防御措施及以后的发展方向. 本综述的主要贡献有两个方面: 一是首次从网络空间防御层面论述机器学习的对抗攻击与防御; 二是探讨了该领域可能的发展方向与存在的挑战.
本文结构如下: 第1节介绍网络空间防御及对抗机器学习等背景知识; 第2节针对机器学习算法在网络空间防御中可能遭受的攻击进行威胁建模, 目的是科学评估其在特定攻击场景下的安全属性; 第3节针对应用于网络空间防御的机器学习算法, 讨论如何实现测试阶段的规避攻击, 训练阶段的投毒攻击以及机器学习全阶段的隐私窃取; 第4节论述当前主要采取的防御措施; 第5节讨论了当前研究的主要局限性以及下一步研究的可行方向.
图 1 混淆代码经过解码被还原为原始代码
图 2 网络空间防御中的对抗攻击与防御措施
图 3 模仿攻击(上图)和反向模仿攻击(下图)
当前机器学习在网络空间防御中的应用仍然处于起步阶段, 距离普及和推广仍有很长的路要走. 然而, 随着科技的发展, 网络空间中的安全问题越来越严峻, 利用机器学习算法实现网络空间防御将是大势所趋.
推进机器学习在网络空间防御中的应用将面临以下两个问题: 1)机器学习算法本身可能会成为一个新的弱点, 新的基于机器学习的网络威胁将不断出现, 研究人员认为切实有效的防御方法, 在随后很快就被认为无效; 2)对现有机器学习算法进行可靠的安全评估比较困难.
本文全面综述了网络空间防御中机器学习可能面临的攻击, 以及可以采取的防御措施, 并对下步研究方向提出了一些展望. 对抗机器学习是加速机器学习技术在网络空间防御应用落地的催化剂. 利用机器学习技术解决网络空间防御问题时, 应围绕对抗机器学习的统一框架, 研究机器学习可能遭受的攻击, 评估相应的防御能力, 利用各种方法提高模型应用于网络空间防御时的安全性.
作者简介
余正飞
国防科技大学系统工程学院博士研究生. 主要研究方向为对抗机器学习和网络安全. E-mail: yuzhengfei19@nudt.edu.cn
闫巧
深圳大学计算机与软件学院教授. 主要研究方向为网络安全和人工智能. E-mail: yanq@szu.edu.cn
周鋆
国防科技大学系统工程学院副教授. 主要研究方向为机器学习和概率图模型. 本文通信作者. E-mail: zhouyun@nudt.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-3 06:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社