温贺分享 http://blog.sciencenet.cn/u/wenhe716 AI安全

博文

人机冲突——我试图建立的一个新的AI安全理论框架

已有 488 次阅读 2026-6-10 01:02 |系统分类:观点评述

最近,由Xinyan Huang, Jihao ShiMing Yang三位教授主编的《Artificial Intelligence in Safety Science and Engineering》正式出版。我有幸参与撰写了其中两章,尤其第五章《Risk Assessment of Human-AI Conflict》是对我在人机冲突领域研究的一个阶段性总结。

很多朋友问我:Human-AI Conflict到底是什么?

事实上,这个概念并不仅仅是人与AI吵架或“打架”。它代表了我近年来逐渐形成的一个更大的思考:我们是否需要一个新的理论框架,来理解人工智能时代的人机关系?

过去几年,我的研究主题看似分散。从因果关系(Causality)到可解释性(Explainability),从信任(Trust)到风险感知(Risk Perception),从算法责任(Algorithm Liability)到人机协作(Human-AI Collaboration),再到近期的智能体系统(Agentic AI)和共识形成(Consensus)。这些研究分别发表在不同领域的期刊和会议上,也采用了不同的方法论。然而,当我回顾这些研究时,越来越清晰地意识到:它们实际上都在回答同一个问题——当人类与人工智能共同参与观察、理解、判断和决策时,为什么会产生分歧,又如何避免这些分歧演变为风险甚至事故?

图片源自:https://wenhe.data.blog/

这还是我博士期间开始的课题,也正是我提出人机冲突理论框架的出发点。

传统的机器和系统,本质上是工具。计算器不会质疑用户的计算过程,数据库不会反对管理者的决策。然而,人工智能正在发生根本性变化。自动驾驶系统会判断是否应该刹车,医疗AI会给出与医生不同的诊断意见,工业AI会建议是否停机检修,大语言模型甚至能够独立提出行动方案和管理建议。更有甚者,直接行动,比如删除你的微信联系人。

AI正在从工具(Tool)逐渐演变为决策参与者(Decision Participant),甚至在某些场景中成为第二决策者(Second Decision Maker),更甚,第一决策者。当系统中出现两个具有独立认知能力的决策主体时,冲突便不再是偶然现象,而是一种结构性的必然现象。因此,我认为未来AI安全研究最核心的问题可能不再是“AI是否会出错,而是当人和AI意见不一致时会发生什么

围绕这一问题,我逐渐构建出人机冲突这一上位理论框架。在这一框架下,因果关系(Causality)研究的是冲突产生的根源机制。为什么人和AI会得出不同结论?哪些关键因素导致了认知分歧?可解释性(Explainability)研究的是如何降低解释冲突(Interpretation Conflict)。如果AI无法解释自己的推理过程,人类便难以理解其决策逻辑,从而形成认知隔阂。信任(Trust)研究的是冲突之后的行为反应。当AI多次正确时,人们可能产生过度信任(Overtrust);当AI出现错误时,人们又可能产生信任不足(Undertrust)。从这个角度看,信任并不是一个孤立现象,而是人机冲突长期累积后的结果变量。

近年来,我开始关注机器风险感知(Machine Risk Perception)。这项研究进一步扩展了人机的边界。现实中,人与AI最大的差异往往不是计算能力,而是对风险的理解方式。例如,AI可能根据大量数据认为事故概率只有1%,而经验丰富的操作员却认为风险极高;反过来,AI也可能发现人类难以察觉的危险信号。在这种情况下,双方都可能是理性的,但由于风险认知体系不同,最终形成风险感知冲突(Risk Perception Conflict)。我越来越相信,这类冲突将成为未来高风险行业中最典型的人机冲突形式之一。

随后,我的研究逐渐延伸到算法责任(Algorithm Liability)。当冲突最终导致事故时,一个新的问题随之出现:谁应当承担责任?是操作者、开发者、企业管理者,还是AI系统本身?从人机冲突的视角来看,责任问题实际上是冲突后的治理问题(Post-Conflict Governance)。因此,责任研究并不是独立于人机冲突之外的新议题,而是冲突生命周期中的重要组成部分。

近两年兴起的智能体系统(Agentic AI)则进一步推动了这一理论框架的发展。过去的AI主要负责响应命令,而Agent开始具备自主规划、自主推理、自主调用工具以及自主执行任务的能力。随着自主性的增强,AI与人类之间的冲突空间也在快速扩大。因为此时AI不再只是执行人的决策,而是在生成自己的决策。换句话说,未来我们面对的可能不再是Human-AI Interaction,而是Human-Agent Interaction。在这种背景下,人机冲突将从局部现象逐渐演变为复杂系统中的常态。与此同时,我近期开展的AI共识研究(Consensus)则从另一个角度验证了这一理论框架。在多智能体系统中,完全没有冲突并不一定是好事。因此,人机冲突并不是需要被彻底消灭的对象。

基于这些研究,我逐渐形成一个更大的认识:Human-AI Conflict并不是一个单独的研究主题,而是一种能够连接多个AI研究方向的理论框架。在这一框架中,因果关系(Causality)解释冲突为何产生,可解释性(Explainability)缓解冲突的形成,信任(Trust)反映冲突后的行为变化,风险感知(Risk Perception)揭示冲突的认知来源,算法责任(Algorithm Liability)处理冲突后的治理问题,人机协作(Human-AI Collaboration)和人机团队(Human-AI Teaming)研究如何在冲突存在的情况下维持合作,而智能体系统(Agentic AI)则不断创造新的冲突形式。

如果说过去十年的人工智能研究主要关注如何让AI更聪明,那么未来十年的一个关键问题或许将是如何让人类与越来越聪明的AI安全共存。在我看来,Human-AI Conflict正是理解这一问题的理论起点。它不仅能够连接人工智能安全(AI Safety)、人因工程(Human Factors)、风险分析(Risk Analysis)和系统安全(System Safety),也有可能成为理解未来人机关系的一种基础理论。

这逐渐帮我形成一个比较明确的学术主张:

1.       AI风险多数源于系统内部固有缺陷(intrinsic system flaws),但主要通过人机交互(human–AI interaction)表现出来。

2.       人机冲突(Human–AI Conflict)是这些风险在人机交互过程中最典型的表现形式。

我希望Human-AI Conflict最终不仅仅是一个概念或一篇论文,而能够逐步发展成为人工智能时代解释人与AI关系的一种理论语言。当越来越多的研究开始关注人与AI为何产生分歧、如何管理分歧以及如何从分歧中建立更安全、更可靠的协作关系时,也许Human-AI Conflict将真正成为一个独立而成熟的研究领域。

 

本文参考作者以下文献:

[1] Wen, H. (2026). Risk assessment of human-AI conflict. In Artificial Intelligence in Safety Science and Engineering (pp. 101–118). Elsevier. https://doi.org/10.1016/B978-0-443-36342-9.00011-6

[2] Amin, M. T., Wen, H., Arunthavanathan, R., & Pasman, H. (2026). How does process safety benefit from AI? An overview of recent progress. In Artificial Intelligence in Safety Science and Engineering (pp. 11–45). Elsevier. https://doi.org/10.1016/B978-0-443-36342-9.00006-2



https://blog.sciencenet.cn/blog-3523098-1538653.html

上一篇:在事故发生之前,我们能否“看见风险”?




    
收藏 IP: 139.102.179.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-6-27 15:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部