|
本文源自:CCS'20 KeyTalk 1: Machine Learning and Security: The Good, The Bad, and The Ugly by Wenke Lee
CCS '20: Proceedings of the 2020 ACM SIGSAC Conference on Computer and Communications SecurityOctober 2020 Pages 1–2https://doi.org/10.1145/3372297.3424552
我将与大家分享下,我关于机器学习(Machine Learning, ML)与安全技术交叉领域的思考。
今天我们有了更充实的数据、性能更强大的计算机设备以及更有效的模型算法,更好地是,我们不再像过去一样,完全依赖于人工提取数据特征了(注:如深度学习CNN/RNN等可以自动提取特征)。ML的分析过程变得更具自动化,所学习的数据模型的表示能力也更加强大,这使得一切进入到积极的循环中:更多更充实的数据训练→得到更准确、表示更强大的模型→实际应用效果更好,促进了实际的设备部署引用→收集到更多的实际场景数据→更好地训练数据模型。一个最明显的结果就是,几乎所有的安全服务供应商都宣称其产品中使用了最新的ML算法或模型(因此更准确、更强大)。
未知的内容更多了(There are more unknowns)。过去,我们十分了解所用的安全模型的能力与局限性,比如ML模型中分类原理,自然也明白该攻击者会如何躲避我们的安全模型(注:知道何时模型会误判)。然而如今以深度学习网络为代表的的新一代安全模型,其可理解与可解释性远不如决策树代表的经典ML模型。当我们都无法确保模型是否可信的情况下,又如何将其部署为一个至关重要、甚至生死攸关的安全检测核心呢?
数据污染越来越容易实现(Data poisoning becomes easier)。在线学习和基于Web的学习模型,通常从一个开放的环境中实时收集数据;由于这些数据大多源于用户行为,因此变得更容易被故意污染,如错误信息的制造与传播。我们到底该如何做,才能使得攻击者更难操纵训练数据呢?
攻击者可能会持续关注、利用ML模型的诸多漏洞,并同样使用ML模型来自动化自己的攻击(如敌手学习模型)。我们为什么不加固下ML模型呢?因为加固ML模型,与以往的加固程序、系统和网络是迥然不同的,所以我们做不到。我们不得不准备面对、并处理ML模型可能遇到的失败场景。
最终,还是必须依靠人工交互(humans have to be involved)。问题是何时,以及以一种怎样的方式呢?例如,基于ML分析的系统,应当向分析人员提供什么信息呢?同样的,分析人员又应当向系统提供些什么呢?
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 22:04
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社