||
不是某个爆款应用,不是某个垂类Agent框架,底座 = 你往上搭任何东西都绕不开的那层基础设施。它的标志有三个:
判断标准 | 解释 |
|---|---|
共性抽取 | 所有下游任务共享同一组表征 / 同一套参数 / 同一个运行环境 |
边际成本递减 | 造一次,千万应用复用——越用越强,越用越便宜 |
生态锁定 | 迁移成本高,标准一旦确立就变成"空气" |
历史上每一次真正有平台效应的根技术——晶体管→CPU→OS→TCP/IP→HTML/HTTP——都满足这个结构:窄接口、广覆盖、自我强化。
一、底座的分层拆解(从深到浅)复制┌─────────────────────────────────────────┐ │ Layer 4 应用生态 / Agent / 工作流编排 │ ← 百花齐放,但不是"根" ├─────────────────────────────────────────┤ │ Layer 3 对齐 & 安全 & 可控生成 │ ← 护栏层,重要但仍是上层建筑 ├─────────────────────────────────────────┤ │ Layer 2 ★ Foundation Model 核心能力栈 │ ← 这是主战场 │ · 架构(Transformer → ?) │ │ · 训练范式(预训练 / RL / 推理时计算) │ │ · 数据引擎(合成+筛选+课程) │ │ · 多模态统一表征 │ ├─────────────────────────────────────────┤ │ Layer 1 算力×互联×存储 物理底座 │ ← 平台的"土地" │ · GPU/NPU + NVLink/InfiniBand │ │ · 分布式训练框架(万卡调度) │ │ · 推理基础设施(KV cache、spec解码…) │ └─────────────────────────────────────────┘放到AI语境里,"那条根"不在应用层,不在微调层,而在 「怎么构造、运行、进化一个通用世界模型」的基础栈。
最具平台效应的那条根,集中在 Layer 1 + Layer 2 的交界处——因为那里决定了:谁能以最低成本生产最大的通用能力,谁就能定义生态的"内核"。
二、Layer 1 物理底座:平台的"土地经济学"这是最硬、最资本密集、但也最容易被低估的一层。
1. 万卡级互联拓扑与内存墙突围瓶颈早已不是FLOPS,而是卡间通信 + 显存带宽 + 显存容量
前沿方向:
高维互联(NVLink演进、OAM/UFX、光互联 CPO/NPO 把互连带宽推到TB/s级)
统一内存语义(GPU直接访问另一张GPU/CPU的内存,减少拷贝)
HBM 堆叠 + 近存计算(Memory-Centric AI Hardware)
为什么有平台效应:谁定义了最优互联标准,谁就是AI时代的"总线架构"
训练烧钱一次,推理跑亿万次。推理栈才是真正的平台战场:
KV Cache 管理(PagedAttention / 分块共享)→ 把推理变成"内存池调度问题"
Disaggregated Prefill-Decode(分离预填充和解码阶段,分别优化)
Speculative Decoding / 草稿模型链 → 用廉价的"猜"换昂贵的"写"
量化与稀疏化(INT4/FP8/W8A8)→ 让同样的卡服务10倍流量
三、Layer 2 ★ 核心:Foundation Model 的"通用智能"底座本身这些看起来是工程细节,但它们决定了:同一个模型,你的API成本是别人的1/5还是5倍——成本差就是平台护城河。
这才是你说的那条根的主干。拆成五股最关键的前沿力:
① 架构演化:Transformer 不会永远统治,但替代者必须"兼容生态"方向 | 本质诉求 | 平台含义 |
|---|---|---|
State Space Models(Mamba / RWKV系) | O(L)而非O(L²),线性注意力变体 | 超长上下文、边缘部署的经济性革命 |
Hybrid Architectures(Attention + SSM混合) | 保留全局依赖,压掉二次开销 | 下一代主力骨架大概率不是纯Transformer |
MoE / 细粒度路由 | 参数总量巨大,激活量小 | "一个人脑的不同功能区按需唤醒"——成本可控的超级智能体 |
递归/循环深度(无限深度模型、自适应计算时间) | 让模型自己决定"想多久" | 通向推理时计算的架构化 |
平台效应的根在这里的体现:最终胜出的架构会绑定一整套 kernel库 → 编译链路 → 部署格式 → 微调工具链 的生态,就像x86绑定了整个软件世界。
② 训练范式的根本性转移:从「预训练即全部」→「预训练 + 持续推理时进化」这是当前最核心的范式转折:
复制旧范式: 预训练(海量数据, 一次性) → 微调 → 冻结部署 新范式: 预训练(基座) → RL/自博弈/验证器驱动的后训练 → 推理时搜索/规划 → 在线反馈闭环关键前沿科技:
Test-Time Compute / Inference-Time Scaling(OpenAI o1/o3方向揭示的):
智能 = 不只看参数量N和训练token D,还看推理时"想"的深度
这条路的尽头是把LLM从一个"条件反射器"变成具备内部搜索树的推理机——本质上是通用能力的质变。
可验证奖励 + 形式化验证器(尤其是数学/代码/逻辑域):
用"答案可自动验证"的领域做自我博弈的数据工厂,是当前最高效的免标注智能放大器。
World Model / Video-as-Physics 预训练:
下一代底座不只是"文字概率机",而是对物理世界的因果/时空结构的内部模拟器——Sora揭示的就是这个方向:视频生成本质是学了一个压缩的世界动力学模型。
人类语料快见顶了。未来的scaling law不是更多网页,而是更高质量的合成+筛选循环。
前沿方向:
Pipeline-based Synthetic Data(多轮过滤、交叉验证、难度分级课程)
Model-as-a-Judge + 可验证信号双轨评估
Data Diet / Data Pruning 理论:哪些数据真正提升哪些能力?从经验主义走向可计算的信息论框架
主动学习式的数据策展:模型告诉你"我还缺哪种推理场景"
这一层的平台效应在于:最好的数据飞轮 = 最强的数据闭环 = 别人买不到的燃料。
④ 多模态统一表征:通往"一个模型感知一切"平台效应的终极形态是——视觉、语言、声音、动作、传感器读数,都投影到同一套隐空间,然后同一个Transformer(或其后继)在里面做预测。
原生多模态架构(非"视觉编码器+投影层"的缝合,而是从头统一的tokenization)
Action Tokenization(把机器人控制/UI操作也变成token序列 → 通向具身)
Any-to-Any 的生成与理解合一
这条路走到头,底座就不再是"语言模型",而是通用连续时空表征引擎。
⑤ 记忆、个性化与"持久身份"当前LLM是无状态函数:每次对话靠context window塞历史。底座要真正通用化,需要:
可写入的外部记忆系统(分层:工作记忆 / 情节记忆 / 语义记忆 / 程序记忆)
参数高效个性化(adapter太粗,需要更精细的"个人权重增量"管理)
跨会话持久化推理状态(断点续想、后台异步推理)
这就是为什么Memory会是下一个平台争夺点——它关系到底座能不能从"工具"变成"数字孪生/长期协作伙伴"。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-9 16:00
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社