|
最近,由Xinyan Huang, Jihao Shi和Ming Yang三位教授主编的《Artificial Intelligence in Safety Science and Engineering》正式出版。我有幸参与撰写了其中两章,尤其第五章《Risk Assessment of Human-AI Conflict》是对我在人机冲突领域研究的一个阶段性总结。
很多朋友问我:Human-AI Conflict到底是什么?
事实上,这个概念并不仅仅是“人与AI吵架”或“打架”。它代表了我近年来逐渐形成的一个更大的思考:我们是否需要一个新的理论框架,来理解人工智能时代的人机关系?
过去几年,我的研究主题看似分散。从因果关系(Causality)到可解释性(Explainability),从信任(Trust)到风险感知(Risk Perception),从算法责任(Algorithm Liability)到人机协作(Human-AI Collaboration),再到近期的智能体系统(Agentic AI)和共识形成(Consensus)。这些研究分别发表在不同领域的期刊和会议上,也采用了不同的方法论。然而,当我回顾这些研究时,越来越清晰地意识到:它们实际上都在回答同一个问题——当人类与人工智能共同参与观察、理解、判断和决策时,为什么会产生分歧,又如何避免这些分歧演变为风险甚至事故?
这还是我博士期间开始的课题,也正是我提出人机冲突理论框架的出发点。
传统的机器和系统,本质上是工具。计算器不会质疑用户的计算过程,数据库不会反对管理者的决策。然而,人工智能正在发生根本性变化。自动驾驶系统会判断是否应该刹车,医疗AI会给出与医生不同的诊断意见,工业AI会建议是否停机检修,大语言模型甚至能够独立提出行动方案和管理建议。更有甚者,直接行动,比如删除你的微信联系人。
AI正在从工具(Tool)逐渐演变为决策参与者(Decision Participant),甚至在某些场景中成为第二决策者(Second Decision Maker),更甚,第一决策者。当系统中出现两个具有独立认知能力的决策主体时,冲突便不再是偶然现象,而是一种结构性的必然现象。因此,我认为未来AI安全研究最核心的问题可能不再是“AI是否会出错”,而是“当人和AI意见不一致时会发生什么”。
围绕这一问题,我逐渐构建出人机冲突这一上位理论框架。在这一框架下,因果关系(Causality)研究的是冲突产生的根源机制。为什么人和AI会得出不同结论?哪些关键因素导致了认知分歧?可解释性(Explainability)研究的是如何降低解释冲突(Interpretation Conflict)。如果AI无法解释自己的推理过程,人类便难以理解其决策逻辑,从而形成认知隔阂。信任(Trust)研究的是冲突之后的行为反应。当AI多次正确时,人们可能产生过度信任(Overtrust);当AI出现错误时,人们又可能产生信任不足(Undertrust)。从这个角度看,信任并不是一个孤立现象,而是人机冲突长期累积后的结果变量。
近年来,我开始关注机器风险感知(Machine Risk Perception)。这项研究进一步扩展了人机的边界。现实中,人与AI最大的差异往往不是计算能力,而是对风险的理解方式。例如,AI可能根据大量数据认为事故概率只有1%,而经验丰富的操作员却认为风险极高;反过来,AI也可能发现人类难以察觉的危险信号。在这种情况下,双方都可能是理性的,但由于风险认知体系不同,最终形成风险感知冲突(Risk Perception Conflict)。我越来越相信,这类冲突将成为未来高风险行业中最典型的人机冲突形式之一。
随后,我的研究逐渐延伸到算法责任(Algorithm Liability)。当冲突最终导致事故时,一个新的问题随之出现:谁应当承担责任?是操作者、开发者、企业管理者,还是AI系统本身?从人机冲突的视角来看,责任问题实际上是冲突后的治理问题(Post-Conflict Governance)。因此,责任研究并不是独立于人机冲突之外的新议题,而是冲突生命周期中的重要组成部分。
近两年兴起的智能体系统(Agentic AI)则进一步推动了这一理论框架的发展。过去的AI主要负责响应命令,而Agent开始具备自主规划、自主推理、自主调用工具以及自主执行任务的能力。随着自主性的增强,AI与人类之间的冲突空间也在快速扩大。因为此时AI不再只是执行人的决策,而是在生成自己的决策。换句话说,未来我们面对的可能不再是Human-AI Interaction,而是Human-Agent Interaction。在这种背景下,人机冲突将从局部现象逐渐演变为复杂系统中的常态。与此同时,我近期开展的AI共识研究(Consensus)则从另一个角度验证了这一理论框架。在多智能体系统中,完全没有冲突并不一定是好事。因此,人机冲突并不是需要被彻底消灭的对象。
基于这些研究,我逐渐形成一个更大的认识:Human-AI Conflict并不是一个单独的研究主题,而是一种能够连接多个AI研究方向的理论框架。在这一框架中,因果关系(Causality)解释冲突为何产生,可解释性(Explainability)缓解冲突的形成,信任(Trust)反映冲突后的行为变化,风险感知(Risk Perception)揭示冲突的认知来源,算法责任(Algorithm Liability)处理冲突后的治理问题,人机协作(Human-AI Collaboration)和人机团队(Human-AI Teaming)研究如何在冲突存在的情况下维持合作,而智能体系统(Agentic AI)则不断创造新的冲突形式。
如果说过去十年的人工智能研究主要关注“如何让AI更聪明”,那么未来十年的一个关键问题或许将是“如何让人类与越来越聪明的AI安全共存”。在我看来,Human-AI Conflict正是理解这一问题的理论起点。它不仅能够连接人工智能安全(AI Safety)、人因工程(Human Factors)、风险分析(Risk Analysis)和系统安全(System Safety),也有可能成为理解未来人机关系的一种基础理论。
这逐渐帮我形成一个比较明确的学术主张:
1. AI风险多数源于系统内部固有缺陷(intrinsic system flaws),但主要通过人机交互(human–AI interaction)表现出来。
2. 人机冲突(Human–AI Conflict)是这些风险在人机交互过程中最典型的表现形式。
我希望Human-AI Conflict最终不仅仅是一个概念或一篇论文,而能够逐步发展成为人工智能时代解释人与AI关系的一种理论语言。当越来越多的研究开始关注人与AI为何产生分歧、如何管理分歧以及如何从分歧中建立更安全、更可靠的协作关系时,也许Human-AI Conflict将真正成为一个独立而成熟的研究领域。
本文参考作者以下文献:
[1] Wen, H. (2026). Risk assessment of human-AI conflict. In Artificial Intelligence in Safety Science and Engineering (pp. 101–118). Elsevier. https://doi.org/10.1016/B978-0-443-36342-9.00011-6
[2] Amin, M. T., Wen, H., Arunthavanathan, R., & Pasman, H. (2026). How does process safety benefit from AI? An overview of recent progress. In Artificial Intelligence in Safety Science and Engineering (pp. 11–45). Elsevier. https://doi.org/10.1016/B978-0-443-36342-9.00006-2
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-27 15:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社