博文

关于两起Boeing 737-8事故的思考

已有 2423 次阅读 2019-3-20 20:00 |系统分类:观点评述

埃航空难已经过去将近十天。再结合去年狮航737-8的空难。

越来越多的迹象表明波音的MCAS（Maneuvering Characteristics Augmentation System，机动特性增强系统）系统有着设计的缺陷，造成了自动化系统和飞行员的“暴力”抢夺控制权。

两起事故可以说是暴露的同样的问题。

笔者通过多年的系统安全的学习，认为有两个问题。

第一个问题：关于MCAS

MCAS软件是存在着设计缺陷的
具体的设计缺陷是什么，我们需要进行一定的探讨。根基维基百科中数据[1]，波音MAX系列的飞机截止2018年已经交付330架之多，并且根据狮航空难的临时调查报告[2]，所有的MAX飞机除了ng都装配了MCAS软件。现在这个明显的缺陷问题集中出现在MAX8上，这说明不单单是软件的问题。狮航失事航班飞机遭受了多次的AoA数据错误，造成相关的飞机仰角数据收集有误，这可能引发了软件的“暴力”夺权。如果埃航的飞机也遇到AoA数据错误的情况，我们就可以判断，大概率情况下是MCAS软件只是使用了AoA数据传感器的单一方面的数据来源进行的工作。这样就会造成，无法检测数据错误的情况。飞机传感器本身就属于主动控制环节，只能通过数据异常模式或对采集方式的对单一主动监测部件故障与否进行判断，以此来确定所提供数据的可靠性。但是，对传感器的监测的主动式“故障-安全”，即监测冗余，依然有很多的不可靠性，并且会进一步增加系统的复杂度，一般不会在非非常核心的部件上采用。那么关于数据的异常模式呢？很可惜，这个数据本身就是采集异常情况下的，因此两个模式之间存在着天然的交集，所以无法滤掉传感器出现错误时的数据。在无法单独对单一来源数据进行异常判断时，往往采用数据的多方位来源，进行对比判断。因此，笔者大胆猜测（由于笔者对MAX8的设计并不了解，因此斗胆猜测），MCAS软件的主逻辑程序没有问题，问题出在单一AoA数据来源，也就是主程序与外界的接口交互功能上出了问题：1）数据采集本身除了问题；2）MCAS接收数据直接使用，未能做安全判断。
关于有“缺陷”MCAS为什么会通过安全评审（此处是本人主观想法）
这个应该是，MCAS软件的主要功能是对飞机姿态的增强控制，因此，系统的开发和实现肯定更关注的是“对应一些列的异常数据是否出现所预期的调整行为及调整行为是否合适”，因此，在飞机成千上万个功能需要安全测试的情况下，这个功能更多的就是按照上述引号中的逻辑进行相应的测试。另外，关于异常的测试，由于系统数据本身采集的就需要包括“异常”情况（这里的异常与数据的异常，在繁杂的工作中很容易被那些不是很懂这些功能细节的人所混淆），因此对数据的“异常”的实例化可能就是：有和无。因此，对数据本身的错误的考虑可能被测试人员疏忽掉，而设计人员又太专注主功能的实现而忘记这部分的安全防护或根本就没有这方面的安全意识，所以也就没有提示测试人员对这个细节进行测试和确认。航空的安全评审工作，在众多的功能评审中也可能对这一部分“照顾”不到。

第二个问题：关于现代复杂大系统安全设计与评审的固有危险思维

我们现在很多的系统设计在安全方面都是二进制思维，即非故障即安全，所以大家都在奋力的在寻找设备、系统的故障，认为防护住了系统故障就等于实现了安全。完全没有意识到，在安全和危险之间还有一种不清楚、不确定的状态——混沌。这也是Hollnagel在safety-II[3]中所提到的，我们要更多的关注做对了什么，要尽可能的将系统防护在对的状态和行为中，而不是一味找危险的行为和状态并直接取反，这样是传统的安全思维深层层次的一个弊端，我们需要极力的避免。所以，MCAS系统的设计中，关于数据的来源，只是非故障就是安全的，完全没有从系统的认知过程考虑到数据本身还有一种无法确定的状态。这就造成了系统在使用数据时拥有“理所当然”的数据使用“自信”，其实这是设计人员的思维“自负”啊。因此，我们必须纠正我们那些过时了的安全思维。
我们对待人机系统，往往还是以人机交互的思想去进行，而且更可怕的依然认为人是系统的后备以及防护对象，而不认为人和设备共同进行控制、默契配合才能实现系统安全。所以，造成的是系统干系统的，人干人的。我系统干活时，你人就不需要管我，不需要你插手，甚至还“好心地”解释为，这样你就可以休息一下了。系统需要你时会给你信号，你再来顶替我。但是，问题就来了，人控制系统是需要有situation-aware和context-aware的，有时候机器不让人知道它在干啥，甚至都不知道设备功能的存在，这样人的情境意识从哪里来，本身的功能切换就是一个比较难而且危险的事情，更别说功能未能分配清楚，设备还要背地里“夺权”。狮航的临时调查报告中已经说明，飞行员是在“手动飞行”，那这个手动飞行根本没有定义清楚，让飞行员以为是跟传统的手动飞行一样，而不认为MCAS依然在发挥作用。这个深层次的人和机在系统控制中的思维是很危险的。所以，笔者建议，以后我们要多提人机融合系统，而少提人机交互系统。这样更能感受到人是整个系统的一部分。

PS；这些观点，只是笔者的粗鄙的想法和看法，对事故原因的一种简陋的猜测。因此，真正的事故原因，还需要大家等待正式的事故报告吧（可能要几年的时间）。

参考文献

https://en.wikipedia.org/wiki/Boeing_737_MAX
https://reports.aviation-safety.net/2018/20181029-0_B38M_PK-LQP_PRELIMINARY.pdf
E. Hollnagel. Safety-I and Saefty-II. 2014.

转载本文请联系原作者获取授权，同时请注明本文来自李辰岭科学网博客。
链接地址：https://blog.sciencenet.cn/blog-1264923-1168653.html

上一篇：飞行员与自动驾驶一场人机大战，设计中的暴力夺权
下一篇：复杂系统事故发生机制的动态特性与薛定谔的猫

收藏 IP: 218.249.50.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

李辰岭

扫一扫，分享此博文

全部作者的精选博文

• 浅谈事故致因模型

Ironmen2012的个人博客分享 http://blog.sciencenet.cn/u/Ironmen2012

博文

关于两起Boeing 737-8事故的思考

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

李辰岭

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

Ironmen2012的个人博客分享 http://blog.sciencenet.cn/u/Ironmen2012

博文

关于两起Boeing 737-8事故的思考

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李辰岭

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)