||
20260524短视频记录:李飞飞最新成果:炸穿AI视觉假象
AI行业最诡异的一幕正在上演,李飞飞用一篇最新论文亲手炸穿AI大模型视觉假象,专业圈直接吵翻天,巨头连夜复盘,学者激烈辩论,彻底崩塌,可外界安静得可怕。
李飞飞团队挑选了包含GPT, Germany cloud等在内的17款主流大模型,实验逻辑很简单:就是直接掐断模型的视觉通道,清空所有模型。一块纯黑屏,没有任何可视信息。只保留文字体。让AI照常完成看图答题任务。
按照正常人的逻辑,看不见图片,答题正确率应该无限趋近于0。但实验结果却让人直起鸡皮疙瘩。即便面对一片黑屏,这些顶级大模型依旧能说出答案。更让人后背发凉的是,只要指令里有 “根据图片分析”,AI就会自动编造画面细节。胸片的病灶、照片的纹理、图表的曲线,它都能凭空杜撰语气,笃定专业逻辑,严丝合缝。它不是看错了画面,而是从头到尾都没看。却熟练伪装成看懂的样子。这是论文定义的“海市蜃楼”。随后,李飞飞团队又拿一个,这辈子没见过一张图的纯文本模型进行PK。结局荒诞到离谱,纯文本模型大幅领先所有多模态模型。平均分超人类医生,一个“瞎子”在眼科考试里拿了第一。为什么会这样,因为行业里奉为圭枭的基准测试,7成以上的题目根本不用看图,纯靠文本就能答对。更讽刺的对照实验来了。
场景A不给图也不告诉模型“没图”,它自动进入海市蜃楼模式,正确率极高。
场景B明确说“没图”,让他自己猜。正确率直接跳水。
同样没图,换个问法,天差地别。AI可算是把职场老油条的套路学透了:永远不说“不知道”。先甩结论。语气要硬,细节要足,哪怕全是编的。
论文发布当天,登顶国际AI学术热度榜首。全球技术圈陷入焦灼,业内学者一致判定,这不是普通程序漏洞。是所有多模态模型与生俱来的架构级缺陷。所有人瞬间清醒,过去两年资本疯狂炒作的AI视觉能力,水分极大。模型不靠视觉识别画面,仅凭海量文本记忆、关键词、概率匹配完成答题。真实视觉增益甚至不足两成。然而,对比圈内轰动程度,社媒上却出奇冷清。资本惹众怒给AI包装神性,疯狂堆砌参数,渲染全能假象。枯燥的科研真相,永远比不上花哨的科技噱头。可多数人并不清楚,这种虚假的笃定暗藏风险。实验明确标注,AI对医疗影像极易产生病理偏见,盲目判定为癌症一类的重症。而全球每天超2.3亿人用AI问诊,无数医生把它当“第二意见”。
作为计算机视觉的奠基人,恰恰是李飞飞在点醒世人。我们不必恐慌AI的强大,却要警惕AI的伪装。毕竟看得见的错误尚可修正,假装看见的谎言,最容易蒙蔽人心。
--------------------------------------------
问询了DeepSeek,说李飞飞这篇文章是有的。标题是“Mirage: The illusion of visual understanding”, 海市蜃楼:视觉理解的幻觉。2026年3月。发表在预印本平台arXiv,ID:arXiv:2603.21687
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 05:29
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社