生态学时空分享 http://blog.sciencenet.cn/u/lionbin 自我营造一个可持续发展的学术生态系统

博文

AI是在用幸存者偏差预测未知世界吗?| 当AI4Science热潮过去后,我们来心平气和地聊聊这事 精选

已有 744 次阅读 2026-4-20 18:01 |个人分类:学术生态|系统分类:科研笔记

2016年,AlphaGo战胜李世石的那一刻,改变了无数人对人工智能的认知,我也是拥趸者之一。当那个曾经被认为是人类智慧最后堡垒的围棋棋盘,被一个冰冷的程序彻底征服时,一个顺理成章的推论开始蔓延:既然AI能在围棋上超越人类上千年的积累,那么它能否在其他领域做同样的事?

这个推论,正是过去五年AI for Science热潮最原始的动力。从AI将在3年内颠覆制药工业到研发周期压缩至1/100,所有那些激动人心的预言,其底层逻辑都可以追溯到那盘棋。人们相信,AlphaGo,特别是后来的AlphaGo Zero在棋盘上展现出的超凡能力,只是一个开始。很快,它就会走进实验室,代替人类完成那些枯燥、漫长、昂贵的科学实验,带领我们进入一个科学爆炸的新时代。

然而,随着热潮逐渐褪去,一个越来越普遍的困惑是:为什么那些在标准测试集上表现近乎完美的AI模型,一旦进入真实的科研场景,就常常出现预测失效的情况?为什么实验室里亮眼的准确率数字,很难转化为工业界可落地的实际成果?

要解答这个问题,肯定不是“数据不够多”或“模型不够大”这样的解释。它指向了当前AI for Science领域一个被严重低估的关键逻辑漏洞:我们绝大多数的科学AI模型,都是用过去那些仅仅包含了成功案例的“干净数据”训练出来的,这就是典型的“幸存者偏差”的问题。也就是说,我们似乎是在用幸存者偏差去预测充满未知的真实世界。

那么,为什么AlphaGo(Zero)那么成功,到AI for Science的实际落地就这么蹩脚呢?

图片1.jpg

99%的失败数据被丢弃,它们才是实验科学的灵魂

这可能是一个常识性的问题:在实验科学中,成功实验的信息价值,远远低于失败实验。成功数据只能告诉你一个极其有限的事实:在这组精确控制的温度、压力、时间、原料纯度参数下,这件事刚好能成一次。它是科学冰山上露出水面的那1%,是一个孤立的终点,却完全不告诉你通往这个终点的道路有多窄、有多少岔路、有多少致命的陷阱。

失败数据,才真正定义了科学规律的边界。它可以告诉你在99.99%的条件下,这件事会失败,告诉你哪些反应会失控、哪些化合物有毒性、哪些结构根本无法稳定存在。这些有关不能做啥的知识,恰好是所有真实科研和工业情景最关注的内容。

在药物研发领域,药物最终能不能上市,背后铺垫的是99.99%被淘汰的候选化合物:这个分子会与肝脏蛋白结合产生肝毒性,那个分子在胃酸中会快速分解,还有那个分子无法穿过血脑屏障。在材料合成领域,一个能稳定批量生产的新材料,背后是上千次的失败尝试。温度高1度会分解,压力低0.1MPa会变成另一种晶相,原料纯度差0.01%就长不出单晶,搅拌速度不对就会分层。但在学术论文中只会记录下:在120℃、2MPa下反应24小时,得到目标产物。而那些无数次失败的参数,连提都懒得提一下。

最终,AI只看到了那1%的成功数据,然后就让它以为自己掌握了整个世界的规律。就好比,你只研究了所有彩票中奖者的购票习惯,就声称自己发现了必中规律。的确,你用这种规律,甚至可以在历史数据集上取得完美的准确率,但这有什么用呢?你永远无法用这个规律做预测,不信,你预测下一期的中奖号码试试?这个问题细谈起来,涉及到过拟合的问题,今天先不谈这事。

为什么失败数据难以进入训练集?

既然失败数据这么重要,那不如我们建立一个专门的失败实验数据库?似乎很合理的想法,但执行不了,因为这不是一个单纯的技术问题,还涉及学术生态、商业利益和数据特性等多个层面的瓜葛。

学术出版天然存在阳性结果偏见。没有任何一本主流期刊会发表“我尝试了100种方法,全部失败了”的纯阴性结果论文,除非最后你有一个成功的解决方案——其实也不可能,因为你的注意力就放在成功的那个去了,谁还管那失败的碎碎念故事,研究者甚至自己都不会认真记录失败实验。很多失败被简单归结为操作失误,数据写在废纸上,随着项目完成、学生毕业就被扔进了垃圾桶。还有一件不能排除的事儿:很多论文中的所谓成功数据,是否也是经过筛选的?

然而,在工业界,失败数据可能是最高级别的商业机密。制药公司花几十亿美元做研发,同样是99%的投入都花在了那些最终失败的化合物上。这些失败数据是最宝贵的竞争壁垒,随便告诉竞争对手哪些坑不能踩?你想多了!这就导致绝大多数公开的AI药物发现模型,都是用几十年前的、已经被工业界淘汰的、没有任何商业价值的成功数据训练的。

另外,失败数据本身还具有极强的非标准化特性。不同实验室的操作流程不同,仪器精度不同,原料批次不同,甚至实验员的手法不同,都会导致不同的失败结果。这些数据即使被收集起来,也很难被AI有效学习,因为AI根本无法区分失败是因为配方不可行,还是因为实验员手抖加错了试剂。

AlphaGo的神话为什么不能复制到科学领域?

现在,我们再回到文章开头提出的那个问题:为什么AlphaGo能在围棋上取得如此惊人的成功,而同样的方法在科学领域却如此拉胯?

初代AlphaGo通过学习大量的人类棋谱,战胜了世界冠军李世石。它本质上是一个极致的插值机器,把人类上千年积累的围棋经验蒸馏成了神经网络的参数,做到了从1到100的极致优化。而AlphaGo Zero则完全抛弃了人类棋谱,只通过自我对弈从零开始学习,最终以100:0的战绩击败了初代AlphaGo,还发现了许多人类从未想到过的全新棋路。这是AI史上首次在一个复杂领域中真正做出了超越人类经验的从0到1的发现,但这个成功有三个缺一不可的前提。

第一,规则明确且固定不变。围棋规则用一张纸的文字就能说清楚,而且万年不变。但在科学领域,完整的规则是什么?我们不知道所有可能的化学反应,不知道所有可能的材料结构,更不知道那些隐藏在未知背后的物理定律。

第二,可无限次自我对弈,自动生成所有可能的成功和失败数据。AlphaGo Zero不需要任何人帮它做实验,可以在计算机里一秒钟下一万盘棋,每一盘棋的每一步,无论是赢是输,都会变成它的训练数据。在这个封闭系统里,不存在任何数据缺失,自然也就不存在幸存者偏差。但在科学领域,我们无法让AI在计算机里模拟出所有可能的实验结果。每一个数据点,都需要人类在实验室里花费真金白银和大量时间才能获得。

第三,胜负标准清晰且即时反馈。一盘棋下完,谁输谁赢一目了然,没有任何争议。但在科学领域,一个实验结果的对错,往往需要几个月甚至几年的时间才能验证。很多时候,我们甚至不知道什么是对,什么是错。

总之,在围棋中,AI可以自己创造数据,自己验证结果,自己迭代进步。但在科学研究中,AI永远只能依赖人类提供的数据。而人类能提供给AI的,却只有那1%经过筛选的成功数据。

这就解释了AI for Science领域诸多令人困惑的现象:AI筛选出来的候选药物,湿实验验证成功率极低,因为它只是在已知有活性的化合物骨架里找相似;AI预测的新材料结构,很多根本无法合成出来,因为它只见过热力学稳定的相,没见过合成过程中会出现的各种不稳定中间相。很多模型都声称准确率超过90%,但很少能真正用于工业生产,因为这个准确率是在已知数据集上计算的。

由此我们可以得出一个更严谨的结论:AI非常擅长做从1到100的优化工作,只有在规则明确的封闭系统中才可能实现从0到1的发现。对于这种开放未知的实验科学领域,它目前还无法做出真正的原创性突破。过去几年行业中很多过度乐观的宣传,恰恰是混淆了这两种不同的系统,把AI在封闭棋盘上的成功,不加限制地推广到了广阔无垠的科学世界。

我们与AI共存的理性边界在哪里?

我们现在指出AI的幸存者偏差缺陷,拆解AlphaGo神话的适用边界,并不是要否定AI for Science的价值。不可否认,AI是人类有史以来最强大的科研助手。但我们必须保持清醒的头脑,警惕那些把AI神化的宣传。

当我们看到一个声称能颠覆行业的AI科学模型时,不妨多问几个问题:这个模型是用什么数据训练的?里面包含了多少失败实验的数据?这个模型在完全独立的盲测中准确率是多少?有多少第三方实验室复现了它的结果?它解决的是一个从1到100的优化问题,还是一个从0到1的原创问题?

科学的本质是探索未知,是面对未知黑暗时的勇气,也是在无数次失败中追寻真理的执着。而AI,只是我们手中的一支更亮的手电筒。它能照亮我们脚下已经走过的路,也能帮我们看清前方不远处的风景,但它永远无法告诉我们,在那片完全未知的黑暗中,藏着什么样的真理。

但是我也相信,未来最好的科学研究,一定是人类的好奇心与AI的计算力完美结合的产物。人类负责提出问题、定义方向、判断价值,AI负责处理数据、验证假设、加速迭代。这才是AI for Science该有的样子!



https://blog.sciencenet.cn/blog-502444-1531223.html

上一篇:别让“老祖宗早就知道”阻碍了科学进步
收藏 IP: 42.233.100.*| 热度|

1 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-4-20 23:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部