|
数据挖掘和机器学习技术在不断从学术向工业应用蔓延,在一片欣欣向荣的同时,需要时刻警惕其带来的安全风险,尤其是数据驱动方法关联到过程控制时要相当谨慎。
通过对目前发表在主流安全期刊中,基于数据技术的风险分析文章,有以下几个问题:
一是忽视数据特征、数据分布、数据结构,乱用数据挖掘方法,比如主成分分析法PCA适用于服从正态分布的线性的数据,独立成分分析法ICA则反之;另外就是不同数据方法的叠加,一些文章在没有探讨数据结构的情况下,直接混用多种方法,这算不上方法创新。如果应用在工业现场,得出的结论将是误导性的。
二是数据与结论之间的关系解读,一些文章将数据之间的相关性解释为模型的符合性,例如常见的将皮尔逊相关系数与模型符合性的确定系数,以及在结论中常常把相关性解读为因果关系,导致推论站不住脚。这在学术界尚且如此,在工业界尝试过程中,更难将这些逻辑关系理清,不专业的解读会影响安全决策,这是很危险的信号。
三是数据污染与清洗的问题,包括大数据领域常说的rubbish in rubbish out 垃圾进垃圾出。工业数据量大,异常数据相对频繁,流程与操作变更都会体现在数据上,这在机器学习过程中会严重误导模型,训练出来的模型难以胜任新的环境变化。再有就是工业场景越来越容易被黑客网络攻击,假数据注入是一个很常见的攻击方式,这对模型的准确性是一种侵害。
四是神经网络模型的滥用,人工神经网络几十年来都不是一个新事物,在学术界被滥用,加上近些年进阶到深度学习,甚至增强学习、对抗学习等等,其本质还是一个神经网络。你听到很多人尤其是工业界的人也把他们挂在嘴边,而落地相当困难,首先是可靠性的问题,远不能把一个神经网络模型当作一个零部件嵌入到系统中。还有就是其可解释性的问题,不管什么样的输入,神经网络总能给你一个输出,调调参数,还能给出一个不错的输出,这种AI黑盒在工业界的应用是相当危险的。
因而,当我们把机器学习的算法和数据挖掘技术应用到工业场景,尤其是与过程控制、实时监控与操作相关联的时候,AI的很多黑盒属性将严重误导安全决策与正确操作,这是一种新型的安全风险。
参考文献:
https://doi.org/10.1016/j.compchemeng.2021.107639
本文由温贺2022-9-9首发于科学网博客,未经许可,禁止转载。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 22:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社