生态学时空分享 http://blog.sciencenet.cn/u/lionbin 自我营造一个可持续发展的学术生态系统

博文

物理规律让人工智能伪造的内容无处遁形 精选

已有 747 次阅读 2026-5-1 23:24 |个人分类:科普荟萃|系统分类:科普集锦

2026年4月,OpenAI正式发布了GPT Image 2.0。这款全新的图像生成模型被誉为一次飞跃式的升级,不仅能够生成照片级逼真的图像,还能精准复刻老照片的划痕、噪点甚至特定时代的氛围感。有人用它伪造了银行支票,支票上的银行标志、账号格式、签名位置乃至底部的磁墨水字符识别码(一种印在支票底部的特殊磁性数字条,用来帮助银行机器自动读取账号等信息)一应俱全,其精细程度足以让银行柜员难辨真伪。尽管这张AI支票并未造成实际的财产损失,但它向金融行业敲响了警钟——银行业不能再把这当作一个理论上的隐患了。

与此同时,声音克隆技术也在飞速迭代:骗子只需从社交媒体上截取几秒钟的音频,就能用人工智能还原一个人的声线,进而在视频通话中冒充亲友借钱。在许多AI创作平台上也是只需上传自己的几秒原声,几分钟便能克隆出自己的音色并任意改词。

更令人不安的是,GPT Image 2.0仅凭一句话,就能生成带准确时间戳的微信聊天记录,或伪造一张带有逼真反光甚至摩尔纹效果的屏幕拍摄图——就好像有人真的把手机举到了你面前。人贩子甚至可以用AI生成的亲子合照,当街声称孩子是自己的,试图在众目睽睽之下拐骗儿童。

我们曾经深信不疑的“眼见为实”,正在被人工智能以惊人的速度瓦解。

正当我对这些新闻感到迷惘和担忧时,五一国际劳动节(周五)当天,我照例打开了Science周刊的网站。读完两篇文章,之前的忧虑消去大半。现在大家看到的文字,正是我读Science两篇文章的心得。

 图片1.jpg

Science的两篇文章,一篇题为“The misinformation accelerator”(错误信息加速器),系统分析了生成式人工智能如何被用于虚假信息宣传,并成为错误信息研究者手中的双刃剑;另一篇题为“Reality check”(现实核查),讲述了数字取证领域顶尖专家汉尼·法里德(Hany Farid)如何与日益逼真的AI伪造图像缠斗二十余年,并在他职业生涯最大挑战面前寻找出路。两篇文章共同指向一个关键发现:AI可以骗过人的眼睛,却骗不过物理规律。

这正是我现在要展开的主题——为什么物理规律,可能是数字时代我们手中最可靠的“测谎仪”。

生成式AI的“物理盲”宿命

为什么物理规律能揭穿AI伪造?我们先来了解一下生成式AI是如何工作的。简单来说,这些工具通过学习海量图片和视频,模仿它们看起来该有的样子来创作新内容。它们就像天才的画师,可以按主人的要求把天空画得蔚蓝、把人物渲染得栩栩如生,但它们从未亲眼见过真实的世界,更没有伸手摸过物体的质感、感受过重力下拉的力道或光线穿透玻璃的折射方式。它们记住的是“像素该怎么排列”,而非“世界该如何运行”。

这就导致了一个根本性的缺陷:生成式AI不了解物理,不了解几何,更不懂因果关系。画家需要通过写生来理解光影在人体上的变化,而AI却只能从二维的拼图中猜测三维的法则。于是,种种不自然便可能会露出马脚。

你也许见过早年AI生成的典型纰漏:一个人手上冒出六根手指,五官彼此交缠,牙齿重叠成诡异的双影。而现在随着技术的演进,这类粗劣的硬伤已经几乎不会发生了。从GPT Image 2.0的实测效果来看,其生成的照片在文字渲染、物体摆放、界面细节等方面已到了“几乎以假乱真,普通人肉眼很难分辨实拍照片与AI伪造图”的程度。但是,更深层的破绽并不会随着技术的进步而消失,这根植于AI不是“物理的存在”这一无法改变的事实。

我们现在来想象一张阳光明媚的合影。如果让人来画,我们可能会下意识地让所有人的影子指向同一个方向,因为现实世界的光源,也就是太阳,那是唯一的。但AI可能给左边的人物画出朝前倾的影子,给右边的人物画出朝后倒的影子,因为它只是把各自“好看”的部分拼合在一起,并不是真的在那片阳光里“放置”过这些人。这就是物理规律中的“光照一致性”:同一个场景中,所有物体必须遵循统一的光源方向。可惜,AI并不理解这一点,因为它从来没有站在阳光下过。

同理,一面镜子也会让AI露馅。AI生成的室内照片里,镜中的倒影常常与现实对不上,物体本应看不见的面却赫然出现在反射中,这就暴露了AI对反射定律的无知:入射角永远等于反射角,镜中世界的每个点都对应着现实世界中光线的几何路径。还有,更根本的是透视法则:现实中平行的线条,比如地砖的接缝、窗框的竖边,都应该汇聚于同一个消失点。在真实照片中,这些几何属性天衣无缝地编织在一起,而AI常常会在这里犯下物理性的错误。正如前面Science一篇文章的作者法里德所言:生成式AI不懂物理,不懂几何,会生出各种离谱的玩意儿。 

如果说伪造静态照片只是在二维平面上“画画”,那么伪造动态视频则是在挑战整个物理世界的运行法则。AI生成的爆炸常常过于“戏剧化”——火光冲天、浓烟滚滚,比真实爆炸看起来更像电影画面,但烟雾的扩散规律、火舌的形态却经不起逐帧推敲。

图片5.jpg

上述的所有图片,来自后面的参考文献[2]。

还是刚才所提到的那位作者在文章中报道了他亲身经历的一个经典案例:一段据称显示美国战斧导弹击中伊朗某城市女子小学的视频在网络上疯传,他受命鉴定真伪。他逐帧分析了导弹飞行的轨迹、爆炸声与画面之间的时间差,以及导弹在画面中所占像素对应的实际尺寸,最终确认视频为真。这个案例最值得深思的地方在于:造假者或许能花十分钟把导弹剪影贴进天空,但要同时精准控制声速延迟、几何透视、光照方向和运动轨迹,还要让它们在同一个物理框架下自洽统一,这个难度对AI来说是根本不可能完成的任务。 

让造假者在物理法庭上出庭

把这些物理道理变成具体的检验技术,就构成了数字取证的核心。在这个领域,研究者们需要既懂物理又懂刑侦:他们不依赖黑箱般的人工智能检测器,而是请出数学和物理的基本法则。中国最高人民检察院近期的一份报告指出,监控视频、聊天记录截图、转账记录截图等证明力较强的证据,正成为深度伪造技术重点“加工”的对象。这意味着,传统的“截图即证据”思维亟需一套全新的验证工具箱来补充,而物理取证正是其中最锋利的那一件。

第一把尺子,是几何透视。真实的镜头必然遵循透视原理:现实中平行的线条,无论是马路边缘、建筑物窗台,还是连接物体与其影子的虚拟光线,在画面里都应当指向同一个消失点。通过分析画面中已知尺寸的参照物,可以重建出拍摄场景的三维空间关系。如果一张图中左侧人物的影子指向东,右侧人物的影子却指向西,那物理规律这个“法官”就已经做出了无可辩驳的判决。

第二把尺子,是物体运动的合理性。高速飞行的导弹在视距内近乎直线下坠,这是动量定律决定的,不由艺术创作自由发挥。分析人员可以把连续几帧画面叠加在一起,看物体的位移轨迹是否服从牛顿定律。如果造假者只是用修图软件把一枚导弹剪影贴进天空,其运动路径就可能过于平滑,或在不该加速度的地方突然变向。更进一步,还可以引入流体力学分析:爆炸烟雾的扩散是否服从湍流规律,火舌的翻卷方向是否与风自洽——物理规律在每个环节都布下了关卡。

最精彩的推理往往来自那些看似无关的细节,尤其是声音。光速极快,在短距离内几乎可以认为是瞬时到达;但声音要慢得多,在常温空气中的传播速度约为每秒340米。测量画面中火光一闪到爆炸声响起之间的时间差,比如约三分之一秒,就能立刻算出拍摄点距离爆炸点约100米,这是一个极难伪造的独立变量。再用导弹在画面中的像素尺寸和摄像头光学参数反推真实物体尺寸,就能得出导弹的现实长度。如果这两个彼此独立的推算结果相互吻合,又与已知的导弹型号数据一致,那么视频为真的概率便大大增加。

这套方法之所以坚固,在于它不试图去猜测AI可能在哪里犯错,而是主动追问一个根本问题:这个场景如果真实物理世界里,应该呈现什么模样?Science援引多位研究者的判断指出,目前AI仍无法生成“完美”伪造的图片或视频,深度伪造内容存在一些固有的不自然或不协调之处。

正如法里德所说:我每次出门锁上家门,这能阻止99.99%的人破门而入,但阻止不了一个锁匠。物理规律设下的这道门槛,正是要让绝大多数造假者面对一道无法跨越的高墙。 

不是万能,但已是利器

当然,这种方法也绝非无懈可击。AI研发者同样在努力将物理引擎引入生成模型,让虚拟世界也能像真实世界那样“运行”。然而物理现实之复杂,远超当前任何算法所能驾驭。一片水洼里倒映的碎云,一条褶皱的布料在不同角度光线下的明暗变化,烟雾在湍流中瞬息万变的分形形态——这些自然界的“家常便饭”,对AI来说仍需要数年甚至数十年去追赶。况且,绝大多数造假者的目标并非与手执放大镜的物理学家对决,而是快速、廉价地骗过大多数没空细细审视的普通用户。这便给物理取证留下了广阔的用武之地。

物理规律检验还有另一重无可替代的价值:它的结论可以被解释。在法庭上,你不能只对法官说“机器告诉我这张图是假的”,而必须讲清楚“为什么”是假的。因为照片中两个人的眼神光来自截然不同的方向,证明他们不可能在同一光源下同框出现;或者,因为镜中倒影的几何关系不符合反射定律,证明这个场景从未真实存在过。

我们现在再回看文章开头提到的困境,GPT Image 2.0等工具让传统的身份验证方式面临前所未有的挑战。继续单纯依赖面容、声纹等静态生物特征,就好像用一把越来越容易复制的钥匙去锁门。展望未来,安全核身系统也许需要引入物理世界的动态变量作为更根本的凭据——比如要求用户在验证时完成一个随机动作,再实时分析光线在面部肌肉运动中的变化轨迹,捕捉环境中那些细微却独一无二的反射特征。一言以蔽之,要确认屏幕对面的你,是一个真正生活在物理世界中的碳基生命,而非一段完美渲染的硅基录像。

在今天这个信息泛滥的世界里,每天都有海量AI生成的画面被制造、传播。有的是为了博眼球,有的是为了骗钱财,有的甚至是为了煽动对立、攻击制度。对抗它们需要一整套多层次的策略——教育公众辨伪、追溯信息来源、强化平台治理、完善法律法规,缺一不可。《中华人民共和国网络安全法》明确规定,任何个人和组织不得利用网络编造、传播虚假信息扰乱经济和社会秩序。面对这些几可乱真的新型虚假内容,执法与取证的技术手段也必须同步升级。

在技术防线的最前沿,那些镌刻在宇宙运行中的物理规律,包括几何、光学、声学和力学,正如同一道沉默而坚固的堤坝,守卫着我们在数字洪流中如浮萍般漂摇的真实感。无论虚拟世界如何精进,真实的阳光,总会投下诚实的影子。 

【参考文献】

[1] https://doi.org/10.1126/science.aei4485

[2] https://doi.org/10.1126/science.aei4515



https://blog.sciencenet.cn/blog-502444-1533086.html

上一篇:当AI比老师讲得好,我们为什么还要去教室?| 大学课堂,还能干什么?
收藏 IP: 202.120.237.*| 热度|

2 周浙昆 许培扬

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-5-2 10:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部