||
Lingshu-Cell:构建虚拟细胞的生成式细胞世界模型
在过去十年中,大规模单细胞 RNA 测序(scRNA-seq)数据集的快速扩展使得对不同组织、物种和生理条件下的细胞状态进行越来越全面的表征成为可能。然而,基于这些图谱的分析大多仍以描述性为主,侧重于注释、聚类和比较表征,而非预测建模。因此,一个核心挑战是开发能够捕捉细胞状态分布、生成真实细胞异质性并模拟细胞如何响应扰动的计算框架。发展这种生成能力将解锁深远的生物应用,使研究人员能够进行大规模计算机模拟实验,以解析疾病机制、筛选潜在疗法和绘制复杂的发展轨迹。
为了概括这一总体目标,将这种全面的框架正式概念化为一个细胞世界模型。类似于人工智能中的世界模型,这些模型学习环境的紧凑表示并支持条件模拟,细胞世界模型旨在表示转录组状态的分布及其条件动态。通过明确地建模这种内在状态空间,此类系统可以将单细胞生物学从静态目录学推向能够在干预下模拟高保真细胞状态及其反应的计算环境。
受自然语言处理中基础模型成功的启发,转录组的大规模自监督学习最近取得了进展,包括 scGPT、Geneformer、scFoundation 和 CellFM,预训练的基础模型能够捕捉基因表达的迁移性结构,并在不同数据集的共享表示空间中组织细胞。然而,这些模型主要针对静态表示的学习进行优化,而非生成式模拟。现有的生成式方法,如 scDiffusion和 scVI,在转录组生成和扰动建模方面显示出潜力。然而,它们的性能受限于连续数据假设,这与单细胞转录组数据稀疏、离散和非序列的性质不匹配。与此同时,以扰动为重点的方法,如 STATE、CellFlow、scDFM和 AlphaCell,通常学习从控制状态和扰动条件到扰动结果的直接映射。虽然这些方法对特定的预测任务有效,但它们并未模拟转录组状态的潜在分布或其条件动态。这些局限性突显了需要一种能够明确表示转录组状态空间并支持在扰动下进行条件模拟的细胞世界模型的必要性。
最近,Zhang等人提出了 Lingshu-Cell(图1,https://alibaba-damo-academy.github.io/lingshu-cell-homepage/),一种用于转录组范围内细胞状态生成建模的掩码离散扩散模型。Lingshu-Cell 通过离散基因表达标记的掩码-预测目标进行训练。这种设计使得能够对全转录组轮廓进行非自回归、双向的精细调整,同时保持与 scRNA-seq 数据稀疏、非序列特性的兼容性。Lingshu-Cell 直接对约 18,000 个基因的全转录组表达进行建模,无需进行先验基因选择,例如通过高变异性过滤或按表达水平排序,并捕捉了细胞异质性背后的复杂组合基因表达模式。在涵盖九种组织和五种物种的大规模单细胞数据集上,Lingshu-Cell 能够重现真实 scRNA-seq 数据的转录组分布、标记基因表达模式和细胞亚群比例,从而实现对异质细胞群体的逼真模拟。此外,Lingshu-Cell 将细胞类型或供体身份与扰动背景(如遗传或细胞因子扰动)嵌入到一个联合潜在空间中,用于建模全转录组表达变化对扰动的响应。它仅使用约 60 万个训练细胞,在虚拟细胞挑战 H1 遗传扰动基准测试中取得了领先性能,并在人类 PBMC的细胞因子扰动预测中表现出优异结果。综合来看,这些结果将 LingshuCell 定位为一个灵活的细胞世界模型,适用于虚拟细胞建模和跨不同生物学背景的计算机模拟扰动分析,为生物学发现和扰动筛选建立了一种新的范式。
图1 Lingshu-Cell 框架概述。a, Lingshu-Cell 采用掩码离散扩散模型来学习和生成单细胞转录组数据。在前向过程中,基因表达值逐步被掩码(从 t=0 到 t=T);在反向过程中,模型迭代预测掩码值以生成真实的 scRNA-seq 表达谱。b, 生成范式的比较。与依赖固定顺序的自回归(AR)模型和将所有位置连续噪声污染的去噪扩散概率模型(DDPM)不同,Lingshu-Cell 以顺序无关的方式随机掩码和预测基因表达值,这与基因表达数据的无序结构本质上兼容。c,Lingshu-Cell 的应用场景,包括跨不同人类组织和物种的无条件生成,以及遗传扰动和细胞因子扰动响应预测的条件生成
参考文献
[1] Zhang H, Yuan G H, Yuan C, et al. Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells. arXiv preprint arXiv:2603.25240, 2026. https://doi.org/10.48550/arXiv.2603.25240
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-28 19:04
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社