博文

关于安全与 AI：一些研究问题与思考

已有 1384 次阅读 2025-12-18 07:05 |系统分类:科研笔记

我为什么写这些关于安全与AI 的文章

我写这些文字，并不是为了做科普，也不是为了提供操作指南或行业建议。它们更接近于一种对外公开的研究思考与问题澄清：记录我如何理解安全问题，如何看待AI在复杂系统中的角色，尤其是为了安全目的，以及在高度不确定的条件下，我们应当如何形成风险判断。

我是谁

我目前在美国印第安纳州立大学担任助理教授/博导，AI安全实验室主任，从事安全工程与AI相关的研究与教学。我的研究横跨工程安全、AI与风险科学，关注当系统逐渐具备感知、学习与决策能力时，安全问题如何被重新定义。

与以事故统计为中心的传统安全分析不同，我更关注事故尚未发生之前的阶段：风险如何被感知、如何被建模，以及人类与智能系统如何在不确定条件下共同做出判断。

我关心什么问题

概括而言，我的研究围绕一组相互关联的问题展开，这些问题共同指向智能系统中的安全判断机制。

1.AI 安全与机器风险感知当系统不再只是被动执行指令的工具，而开始参与感知、推理与决策时，风险是否仍能被人类正确理解与校准？机器“看到”的风险，与人类理解的风险之间存在哪些结构性偏差？

2.人机协作与冲突中的安全问题在人类与智能系统共同控制复杂工程系统的情境下，失效往往并非源于单一错误，而是源于认知不一致、信任错配或责任边界模糊。这些冲突如何形成，又如何在系统层面被缓解？

3.主观概率与稀有事件的风险评估在低频高后果事件中，事故概率无法简单由历史频率给出。风险判断不可避免地依赖于前兆信息、专家认知与结构化假设。我关注这些判断如何被形式化，以及其合理性的边界在哪里。

4.安全模型的假设、适用性与退化无论是传统安全模型还是基于AI 的方法，它们都嵌入了隐含假设。我更关心这些模型在真实系统中何时有效、何时失效，以及失效意味着什么。

这些问题共同指向一个核心关切：

在事故稀有、系统复杂、智能化且不确定性无法消除的条件下，我们如何对“安全”做出负责任的判断？

我通常不写什么

为了避免误解，这里也明确一些边界。

我通常不会写：

1.安全管理“速成方法”

2.AI 能否“颠覆”某个行业的宏大叙事

3.缺乏模型与假设讨论的技术展示

4.与具体机构、企业或项目的宣传性内容

这些内容并非不重要，但并非我写作的目的。

这些文章写给谁

这些文字主要写给三类读者：

1.学术同行希望这些讨论能清楚地表达我在问题结构、建模逻辑与研究立场上的思考。

2.安全从业者如果你在实践中感到“工具很多，但判断依然困难”，这些文字或许能提供另一种理解视角。

3.安全与工程领域的学生如果你正在学习方法，却不确定这些方法在真实系统中意味着什么，这里可能会有所帮助。

写作方式说明

这里的文章通常不是完整论文，也不追求结论的封闭性。它们更像是尚未完全写进论文中的那一层思考：

1.模型为何这样设定

2.假设的代价是什么

3.哪些问题目前仍然无法被很好回答

如果这些问题与你的研究、实践或教学产生共鸣，欢迎交流与讨论。

最后

在复杂系统中，安全从来不是一个“算出来就结束”的问题。它始终涉及判断，而判断不可避免地依赖于我们如何理解不确定性。

我希望这些文字，能让这种判断过程变得更透明一些，也更诚实一些，同时提醒我不要忘记写作的初衷。

温贺安全工程 · AI · 风险与决策

转载本文请联系原作者获取授权，同时请注明本文来自温贺科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3523098-1514783.html

上一篇：事故概率不是频率问题，风险建模中被长期误解的一件事
下一篇：当事故 “ 从未发生 ” ，怎么估计概率？

收藏 IP: 168.92.120.*| 热度|

当前推荐数：1 推荐人：葛及

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

温贺

扫一扫，分享此博文

温贺的博客分享 http://blog.sciencenet.cn/u/wenhe716 安全工程领域学术与杂谈

博文

关于安全与 AI：一些研究问题与思考

当前推荐数：1 推荐人：葛及

该博文允许注册用户评论请点击登录评论 (0 个评论)

温贺

全部作者的其他最新博文

全部精选博文导读

温贺的博客分享 http://blog.sciencenet.cn/u/wenhe716 安全工程领域学术与杂谈

博文

关于安全与 AI：一些研究问题与思考

当前推荐数：1 推荐人： 葛及

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

温贺

全部作者的其他最新博文

全部精选博文导读

当前推荐数：1 推荐人：葛及

该博文允许注册用户评论请点击登录评论 (0 个评论)