温贺的博客分享 http://blog.sciencenet.cn/u/wenhe716 安全工程领域学术与杂谈

博文

安全科学需要关注——滥用机器学习与数据挖掘导致的风险 精选

已有 4051 次阅读 2022-9-10 04:15 |系统分类:观点评述

数据挖掘和机器学习技术在不断从学术向工业应用蔓延,在一片欣欣向荣的同时,需要时刻警惕其带来的安全风险,尤其是数据驱动方法关联到过程控制时要相当谨慎。

通过对目前发表在主流安全期刊中,基于数据技术的风险分析文章,有以下几个问题:

一是忽视数据特征、数据分布、数据结构,乱用数据挖掘方法,比如主成分分析法PCA适用于服从正态分布的线性的数据,独立成分分析法ICA则反之;另外就是不同数据方法的叠加,一些文章在没有探讨数据结构的情况下,直接混用多种方法,这算不上方法创新。如果应用在工业现场,得出的结论将是误导性的。

二是数据与结论之间的关系解读,一些文章将数据之间的相关性解释为模型的符合性,例如常见的将皮尔逊相关系数与模型符合性的确定系数,以及在结论中常常把相关性解读为因果关系,导致推论站不住脚。这在学术界尚且如此,在工业界尝试过程中,更难将这些逻辑关系理清,不专业的解读会影响安全决策,这是很危险的信号。

三是数据污染与清洗的问题,包括大数据领域常说的rubbish in rubbish out 垃圾进垃圾出。工业数据量大,异常数据相对频繁,流程与操作变更都会体现在数据上,这在机器学习过程中会严重误导模型,训练出来的模型难以胜任新的环境变化。再有就是工业场景越来越容易被黑客网络攻击,假数据注入是一个很常见的攻击方式,这对模型的准确性是一种侵害。

四是神经网络模型的滥用,人工神经网络几十年来都不是一个新事物,在学术界被滥用,加上近些年进阶到深度学习,甚至增强学习、对抗学习等等,其本质还是一个神经网络。你听到很多人尤其是工业界的人也把他们挂在嘴边,而落地相当困难,首先是可靠性的问题,远不能把一个神经网络模型当作一个零部件嵌入到系统中。还有就是其可解释性的问题,不管什么样的输入,神经网络总能给你一个输出,调调参数,还能给出一个不错的输出,这种AI黑盒在工业界的应用是相当危险的。

因而,当我们把机器学习的算法和数据挖掘技术应用到工业场景,尤其是与过程控制、实时监控与操作相关联的时候,AI的很多黑盒属性将严重误导安全决策与正确操作,这是一种新型的安全风险。

参考文献:

https://doi.org/10.1016/j.compchemeng.2021.107639

He Wen, Faisal Khan, etc.   Myths and misconceptions of data-driven methods: Applications to process safety analysis


本文由温贺2022-9-9首发于科学网博客,未经许可,禁止转载。



https://blog.sciencenet.cn/blog-3523098-1354701.html

上一篇:欧美在关注和使用哪些风险分析方法
下一篇:纪念Mike T. O’Connor先生——安全科学应该铭记的人
收藏 IP: 165.91.13.*| 热度|

8 徐绍辉 卜令泽 尤明庆 苏德辰 杨正瓴 罗春元 胡大伟 白龙亮

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-12-8 18:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部