博文

人机冲突——我试图建立的一个新的AI安全理论框架

已有 488 次阅读 2026-6-10 01:02 |系统分类:观点评述

最近，由Xinyan Huang, Jihao Shi和Ming Yang三位教授主编的《Artificial Intelligence in Safety Science and Engineering》正式出版。我有幸参与撰写了其中两章，尤其第五章《Risk Assessment of Human-AI Conflict》是对我在人机冲突领域研究的一个阶段性总结。

很多朋友问我：Human-AI Conflict到底是什么？

事实上，这个概念并不仅仅是“人与AI吵架”或“打架”。它代表了我近年来逐渐形成的一个更大的思考：我们是否需要一个新的理论框架，来理解人工智能时代的人机关系？

过去几年，我的研究主题看似分散。从因果关系（Causality）到可解释性（Explainability），从信任（Trust）到风险感知（Risk Perception），从算法责任（Algorithm Liability）到人机协作（Human-AI Collaboration），再到近期的智能体系统（Agentic AI）和共识形成（Consensus）。这些研究分别发表在不同领域的期刊和会议上，也采用了不同的方法论。然而，当我回顾这些研究时，越来越清晰地意识到：它们实际上都在回答同一个问题——当人类与人工智能共同参与观察、理解、判断和决策时，为什么会产生分歧，又如何避免这些分歧演变为风险甚至事故？

图片源自：https://wenhe.data.blog/

这还是我博士期间开始的课题，也正是我提出人机冲突理论框架的出发点。

传统的机器和系统，本质上是工具。计算器不会质疑用户的计算过程，数据库不会反对管理者的决策。然而，人工智能正在发生根本性变化。自动驾驶系统会判断是否应该刹车，医疗AI会给出与医生不同的诊断意见，工业AI会建议是否停机检修，大语言模型甚至能够独立提出行动方案和管理建议。更有甚者，直接行动，比如删除你的微信联系人。

AI正在从工具（Tool）逐渐演变为决策参与者（Decision Participant），甚至在某些场景中成为第二决策者（Second Decision Maker），更甚，第一决策者。当系统中出现两个具有独立认知能力的决策主体时，冲突便不再是偶然现象，而是一种结构性的必然现象。因此，我认为未来AI安全研究最核心的问题可能不再是“AI是否会出错”，而是“当人和AI意见不一致时会发生什么”。

围绕这一问题，我逐渐构建出人机冲突这一上位理论框架。在这一框架下，因果关系（Causality）研究的是冲突产生的根源机制。为什么人和AI会得出不同结论？哪些关键因素导致了认知分歧？可解释性（Explainability）研究的是如何降低解释冲突（Interpretation Conflict）。如果AI无法解释自己的推理过程，人类便难以理解其决策逻辑，从而形成认知隔阂。信任（Trust）研究的是冲突之后的行为反应。当AI多次正确时，人们可能产生过度信任（Overtrust）；当AI出现错误时，人们又可能产生信任不足（Undertrust）。从这个角度看，信任并不是一个孤立现象，而是人机冲突长期累积后的结果变量。

近年来，我开始关注机器风险感知（Machine Risk Perception）。这项研究进一步扩展了人机的边界。现实中，人与AI最大的差异往往不是计算能力，而是对风险的理解方式。例如，AI可能根据大量数据认为事故概率只有1%，而经验丰富的操作员却认为风险极高；反过来，AI也可能发现人类难以察觉的危险信号。在这种情况下，双方都可能是理性的，但由于风险认知体系不同，最终形成风险感知冲突（Risk Perception Conflict）。我越来越相信，这类冲突将成为未来高风险行业中最典型的人机冲突形式之一。

随后，我的研究逐渐延伸到算法责任（Algorithm Liability）。当冲突最终导致事故时，一个新的问题随之出现：谁应当承担责任？是操作者、开发者、企业管理者，还是AI系统本身？从人机冲突的视角来看，责任问题实际上是冲突后的治理问题（Post-Conflict Governance）。因此，责任研究并不是独立于人机冲突之外的新议题，而是冲突生命周期中的重要组成部分。

近两年兴起的智能体系统（Agentic AI）则进一步推动了这一理论框架的发展。过去的AI主要负责响应命令，而Agent开始具备自主规划、自主推理、自主调用工具以及自主执行任务的能力。随着自主性的增强，AI与人类之间的冲突空间也在快速扩大。因为此时AI不再只是执行人的决策，而是在生成自己的决策。换句话说，未来我们面对的可能不再是Human-AI Interaction，而是Human-Agent Interaction。在这种背景下，人机冲突将从局部现象逐渐演变为复杂系统中的常态。与此同时，我近期开展的AI共识研究（Consensus）则从另一个角度验证了这一理论框架。在多智能体系统中，完全没有冲突并不一定是好事。因此，人机冲突并不是需要被彻底消灭的对象。

基于这些研究，我逐渐形成一个更大的认识：Human-AI Conflict并不是一个单独的研究主题，而是一种能够连接多个AI研究方向的理论框架。在这一框架中，因果关系（Causality）解释冲突为何产生，可解释性（Explainability）缓解冲突的形成，信任（Trust）反映冲突后的行为变化，风险感知（Risk Perception）揭示冲突的认知来源，算法责任（Algorithm Liability）处理冲突后的治理问题，人机协作（Human-AI Collaboration）和人机团队（Human-AI Teaming）研究如何在冲突存在的情况下维持合作，而智能体系统（Agentic AI）则不断创造新的冲突形式。

如果说过去十年的人工智能研究主要关注“如何让AI更聪明”，那么未来十年的一个关键问题或许将是“如何让人类与越来越聪明的AI安全共存”。在我看来，Human-AI Conflict正是理解这一问题的理论起点。它不仅能够连接人工智能安全（AI Safety）、人因工程（Human Factors）、风险分析（Risk Analysis）和系统安全（System Safety），也有可能成为理解未来人机关系的一种基础理论。

这逐渐帮我形成一个比较明确的学术主张：

1. AI风险多数源于系统内部固有缺陷（intrinsic system flaws），但主要通过人机交互（human–AI interaction）表现出来。

2. 人机冲突（Human–AI Conflict）是这些风险在人机交互过程中最典型的表现形式。

我希望Human-AI Conflict最终不仅仅是一个概念或一篇论文，而能够逐步发展成为人工智能时代解释人与AI关系的一种理论语言。当越来越多的研究开始关注人与AI为何产生分歧、如何管理分歧以及如何从分歧中建立更安全、更可靠的协作关系时，也许Human-AI Conflict将真正成为一个独立而成熟的研究领域。

本文参考作者以下文献：

[1] Wen, H. (2026). Risk assessment of human-AI conflict. In Artificial Intelligence in Safety Science and Engineering (pp. 101–118). Elsevier. https://doi.org/10.1016/B978-0-443-36342-9.00011-6

[2] Amin, M. T., Wen, H., Arunthavanathan, R., & Pasman, H. (2026). How does process safety benefit from AI? An overview of recent progress. In Artificial Intelligence in Safety Science and Engineering (pp. 11–45). Elsevier. https://doi.org/10.1016/B978-0-443-36342-9.00006-2

转载本文请联系原作者获取授权，同时请注明本文来自温贺科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3523098-1538653.html

上一篇：在事故发生之前，我们能否“看见风险”？

欢迎参加科学网十佳博文评选活动！

主办单位：