博文

安全科学需要关注——滥用机器学习与数据挖掘导致的风险精选

已有 5701 次阅读 2022-9-10 04:15 |系统分类:观点评述

数据挖掘和机器学习技术在不断从学术向工业应用蔓延，在一片欣欣向荣的同时，需要时刻警惕其带来的安全风险，尤其是数据驱动方法关联到过程控制时要相当谨慎。

通过对目前发表在主流安全期刊中，基于数据技术的风险分析文章，有以下几个问题：

一是忽视数据特征、数据分布、数据结构，乱用数据挖掘方法，比如主成分分析法PCA适用于服从正态分布的线性的数据，独立成分分析法ICA则反之；另外就是不同数据方法的叠加，一些文章在没有探讨数据结构的情况下，直接混用多种方法，这算不上方法创新。如果应用在工业现场，得出的结论将是误导性的。

二是数据与结论之间的关系解读，一些文章将数据之间的相关性解释为模型的符合性，例如常见的将皮尔逊相关系数与模型符合性的确定系数,以及在结论中常常把相关性解读为因果关系，导致推论站不住脚。这在学术界尚且如此，在工业界尝试过程中，更难将这些逻辑关系理清，不专业的解读会影响安全决策，这是很危险的信号。

三是数据污染与清洗的问题，包括大数据领域常说的rubbish in rubbish out 垃圾进垃圾出。工业数据量大，异常数据相对频繁，流程与操作变更都会体现在数据上，这在机器学习过程中会严重误导模型，训练出来的模型难以胜任新的环境变化。再有就是工业场景越来越容易被黑客网络攻击，假数据注入是一个很常见的攻击方式，这对模型的准确性是一种侵害。

四是神经网络模型的滥用，人工神经网络几十年来都不是一个新事物，在学术界被滥用，加上近些年进阶到深度学习，甚至增强学习、对抗学习等等，其本质还是一个神经网络。你听到很多人尤其是工业界的人也把他们挂在嘴边，而落地相当困难，首先是可靠性的问题，远不能把一个神经网络模型当作一个零部件嵌入到系统中。还有就是其可解释性的问题，不管什么样的输入，神经网络总能给你一个输出，调调参数，还能给出一个不错的输出，这种AI黑盒在工业界的应用是相当危险的。

因而，当我们把机器学习的算法和数据挖掘技术应用到工业场景，尤其是与过程控制、实时监控与操作相关联的时候，AI的很多黑盒属性将严重误导安全决策与正确操作，这是一种新型的安全风险。

参考文献：

https://doi.org/10.1016/j.compchemeng.2021.107639

He Wen, Faisal Khan, etc. Myths and misconceptions of data-driven methods: Applications to process safety analysis

本文由温贺2022-9-9首发于科学网博客，未经许可，禁止转载。

转载本文请联系原作者获取授权，同时请注明本文来自温贺科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3523098-1354701.html

上一篇：欧美在关注和使用哪些风险分析方法
下一篇：关于“两类危险源“和”轨迹交叉理论“最早的纪录

收藏 IP: 165.91.13.*| 热度|

温贺的博客分享 http://blog.sciencenet.cn/u/wenhe716 安全工程领域学术与杂谈

博文

安全科学需要关注——滥用机器学习与数据挖掘导致的风险精选

He Wen, Faisal Khan, etc. Myths and misconceptions of data-driven methods: Applications to process safety analysis

当前推荐数：8 推荐人：徐绍辉 卜令泽 尤明庆 苏德辰 杨正瓴 罗春元 胡大伟 白龙亮

该博文允许注册用户评论请点击登录评论 (2 个评论)

温贺

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

温贺的博客分享 http://blog.sciencenet.cn/u/wenhe716 安全工程领域学术与杂谈

博文

安全科学需要关注——滥用机器学习与数据挖掘导致的风险 精选

He Wen, Faisal Khan, etc. Myths and misconceptions of data-driven methods: Applications to process safety analysis

当前推荐数：8 推荐人： 徐绍辉 卜令泽 尤明庆 苏德辰 杨正瓴 罗春元 胡大伟 白龙亮

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

温贺

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

安全科学需要关注——滥用机器学习与数据挖掘导致的风险精选

当前推荐数：8 推荐人：徐绍辉卜令泽尤明庆苏德辰杨正瓴罗春元胡大伟白龙亮

该博文允许注册用户评论请点击登录评论 (2 个评论)