phenome的个人博客分享 http://blog.sciencenet.cn/u/phenome

博文

AI的下一个战场不在模型,而在生物数据的\'底座\'

已有 813 次阅读 2026-5-2 20:37 |个人分类:AI4Medicine|系统分类:科研笔记

导语:当模型不再是壁垒,什么才是?

2026年4月,美国顶级风投 Bessemer Venture Partners(BVP)发布了一篇在生物医药投资圈引发强烈共鸣的文章——《Building Biology-Native Data Infrastructure for the AI Era》

文章的核心判断堪称一针见血:随着算力成本持续下降、模型能力逐步商品化,AI制药的竞争焦点正在从"谁的模型更强"转向"谁的数据底座更厚"。 BVP将这种能力命名为"biology-native data infrastructure(生物原生数据基础设施)",并提出了一个三层框架。

这个判断的适用范围远不止制药。从AI辅助靶点发现到长寿科技中的衰老量化评估,从精准医疗到真实世界证据,整个生物医学领域都面临同一个底层问题:AI模型的上限,取决于喂给它的数据质量。

Q&A:BVP 这篇文章为什么值得关注?Q&A:这篇文章和之前那些"AI制药"报告有什么不同?

过去几年,关于AI制药的讨论几乎都围绕模型展开——谁的蛋白结构预测更准,谁的分子生成更快,谁的基础模型参数更大。BVP这篇文章的不同之处在于,它把视角拉到了更高处:模型会商品化,算力会降价,最终真正稀缺的、不可替代的,是贴近真实生物过程、保留足够上下文、能被机器持续学习的"生物原生数据"。 这不是技术路线之争,而是对整个行业竞争范式的重新定义。

Q&A:这对长寿科技意味着什么?

长寿科技与AI制药共享同一套底层逻辑——都需要从高维、异构、强上下文依赖的生物数据中提取信号。甚至可以说,长寿科技比传统制药更需要"生物原生数据基础设施"。原因很简单:制药面对的是单一疾病靶点,而长寿科技面对的是整个衰老过程的系统性描述。你无法优化你无法衡量的东西。在衰老的度量问题没有解决之前,任何"AI抗衰老"的叙事都缺乏根基。

一、BVP 的核心诊断:瓶颈不在算法,在数据

BVP 的文章提出了一个尖锐但准确的判断:今天AI制药的核心瓶颈,从来不是"算法入口",而是"数据底座"。

这并非行业第一次意识到数据问题,但BVP第一次系统性地阐述了"为什么生物数据与互联网数据根本不是同一类问题"。文章指出了五个核心特征:

  1. 高度异构:化学、组学、病理、影像、毒理、药代、动物、临床数据彼此割裂,存在于完全不同的系统和格式中

  2. 强上下文依赖:同一个检测指标,换了实验方法、细胞系、剂量、时间点,含义就可能完全不同

  3. 高价值标签极度稀缺:安全性、转化性、患者响应这类真正决定成败的标签,获取成本极高

  4. 负数据大量沉没:失败实验、过程数据很少被系统记录,模型只能看到"被整理过的成功样本"

  5. 强监管要求:AI不能只追求"有效",还必须"可信、可解释、可追溯"

BVP文中有一句话特别精准:"药物开发真正的限制因素,从来不是缺少假设,而是缺少高效评估这些假设的资源。"

把这句话延伸到长寿科技领域同样成立:我们不缺衰老机制假说,不缺干预靶点清单,不缺AI demo。真正缺的是——能不能用更高质量的数据判断一个干预是否真的逆转了衰老?能不能让模型从真实人体反馈中持续学习?

二、BVP 三层框架:AI将如何重塑生物医学的数据底座

BVP将未来AI+Biotech的数据基础设施归纳为三层。这不是三块孤立市场,而是一个相互支撑的完整技术栈:

第一层:Biology-native Data Collection(生物原生数据采集)

核心问题:高价值数据从哪里来?

BVP指出,这一层最容易被低估。很多人默认AI制药公司的核心资产是模型,但如果认真审视,会发现第一层很多最重要的公司,本质上是新型数据生产公司。它们在做的不是"用AI分析已有数据",而是主动创造过去行业里几乎不存在、或质量远远不够的数据。

这一层可以细分为:

  • 患者级多模态数据平台(如 Owkin、Pathos、Noetik):将病理、组学、影像、临床和纵向结局做 patient-level 对齐

  • 新型检测和筛选平台(如 Recursion、Isomorphic Labs、Generate:Biomedicines):产生前所未有的高质量功能数据

  • 功能基因组学/CRISPR 筛选平台:系统性解析基因功能与药物响应的关系

第二层:Agentic AI across R&D Workflows(贯穿研发流程的智能体AI)

核心问题:知识与决策如何在全流程中流动?

BVP强调,未来的AI不会只是一个"分析工具",而是一个贯穿研发全流程的"智能体"(Agent)。它能够自主提出假设、设计实验、解读结果、更新认知——形成从数据到决策的闭环。

这一层的关键不是单个模型有多强,而是AI能否嵌入研发工作流的每一个环节,将数据采集、假设生成、实验设计、结果解读串联起来。BVP特别指出,传统的"数据湖"模式——把所有数据丢进一个大池子,再让数据科学家来清洗——已经走到尽头。未来的方向是"数据产品化":让数据在被采集的那一刻就具备结构化、可查询、可学习的能力。

第三层:Closed Loop Lab Automation(闭环实验室自动化)

核心问题:实验如何被执行、记录、回传并形成学习闭环?

这一层解决的是"最后一公里"问题:AI生成的预测和假设,必须通过自动化实验快速验证,验证结果又必须以结构化数据的形式回传给模型,形成真正的"设计-构建-测试-学习"(DBTL)闭环。

没有这一层,AI永远停留在"静态预测"阶段,无法从实验反馈中进化。BVP认为,那些能够将第一层的数据生产能力与第三层的闭环验证能力连接起来的公司,将成为下一个十年的赢家。

三、三层框架的行业映射:AI将引发哪些连锁变革

BVP的三层框架虽然聚焦于AI制药,但其逻辑适用于整个生物医学的AI化进程。让我们看看这个框架在不同领域的映射:

AI制药:从"分子生成"到"数据闭环"

当前AI制药最热的方向——蛋白质结构预测、分子生成、虚拟筛选——本质上都是"第二层"的工作。BVP提醒行业:如果第一层的数据质量不够、第三层的验证闭环没有打通,第二层的模型再强也只是"在噪声上拟合曲线"。

真正的变革方向是:将高质量的功能数据生产(第一层)与自动化的实验验证(第三层)连接起来,让AI在闭环中持续进化。

长寿科技:最需要"数据底座"却被最严重低估的领域

长寿科技的特殊性在于:它面对的不是单一疾病,而是整个生物体的系统性退化过程。这意味着:

  • 数据维度更复杂:需要同时覆盖基因组、表观基因组、蛋白质组、代谢组、微生物组等多个层次

  • 时间跨度更长:衰老是一个跨越数十年的过程,纵向数据的稀缺性远超药物研发

  • 终点定义更模糊:与"肿瘤缩小"或"血压降低"不同,"衰老逆转"本身就没有公认的量化标准

在这样的背景下,哪些数据类型具备成为"biology-native data"的潜力?目前行业探索的方向包括:

  • DNA甲基化:表观遗传标记本身就是个体生命历程中环境信号的积分,且可逆可追踪,可以作为干预-响应的动态监测工具。表观遗传时钟的出现,第一次提供了与生物年龄和死亡风险直接关联的量化指标

  • 蛋白质组学:血浆蛋白质组可以反映器官级别的功能状态,2023年的一项研究基于特定蛋白面板实现了对11种疾病风险的预测。但检测成本和标准化程度仍是瓶颈

  • 代谢组学:代谢物是离表型最近的数据层,但个体内波动大,重复性挑战突出

这三种数据类型各有优劣,最终的"数据底座"很可能是多组学的整合,而非依赖单一模态。但在可标准化、可规模化和与结局关联三个维度上,DNA甲基化目前走在前面。

四、谁在做这件事?行业图谱初现

BVP的文章不仅提出了框架,还隐含了一张行业图谱。结合公开信息,我们可以看到不同层次已经出现了代表性的公司:

第一层(数据生产):

  • Recursion Pharmaceuticals(2024年IPO,市值超60亿美元):通过高通量细胞成像产生前所未有的生物数据

  • Owkin(累计融资超4亿美元):将病理、组学与临床结局做 patient-level 对齐

  • Isomorphic Labs(DeepMind旗下):利用AlphaFold能力产生新型蛋白质结构数据

第二层(智能体AI):

  • Insitro(累计融资超7亿美元):将机器学习嵌入从靶点发现到临床试验设计的全流程

  • Genesis Therapeutics:用图神经网络贯穿分子设计和优化流程

第三层(闭环自动化):

  • Emerald Cloud Lab:全自动化远程实验室

  • Strateos(已被Recursion收购):实验室自动化与数据回传平台

在中国市场,相关方向的探索也在起步阶段。在第一层的数据生产方向,深度甲基(DeepoMe)正在以DNA甲基化为载体构建多维衰老评估数据集,同类方向的还包括多家表观遗传检测公司;在第三层的闭环验证方向,部分长寿健康管理平台开始尝试"检测-干预-再检测"的纵向数据收集模式。需要指出的是,这些探索普遍处于早期阶段,距离BVP描述的规模化数据基础设施还有相当长的路。

五、启发:一场关于"度量"的竞赛

BVP这篇文章最大的价值,不在于它提出了一个新框架,而在于它精准地指出了一场正在发生的范式转移:AI+Biotech的竞争,正在从"谁的算法更强"转向"谁的数据底座更厚"。

这对整个行业的启示是多层面的:

阅读全文:AI的下一个战场不在模型,而在生物数据的'底座'



https://blog.sciencenet.cn/blog-508476-1533174.html

上一篇:衰老标志 Hallmarks of Aging 的重新分类:基于信息观点
下一篇:奇点:万亿赛道——长寿科学进入指数增长期
收藏 IP: 222.128.181.*| 热度|

1 许培扬

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-5-30 08:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部