zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

Lingshu-Cell:构建虚拟细胞的生成式细胞世界模型

已有 732 次阅读 2026-4-26 17:44 |个人分类:科普|系统分类:科普集锦

Lingshu-Cell:构建虚拟细胞的生成式细胞世界模型 

在过去十年中,大规模单细胞 RNA 测序(scRNA-seq)数据集的快速扩展使得对不同组织、物种和生理条件下的细胞状态进行越来越全面的表征成为可能。然而,基于这些图谱的分析大多仍以描述性为主,侧重于注释、聚类和比较表征,而非预测建模。因此,一个核心挑战是开发能够捕捉细胞状态分布、生成真实细胞异质性并模拟细胞如何响应扰动的计算框架。发展这种生成能力将解锁深远的生物应用,使研究人员能够进行大规模计算机模拟实验,以解析疾病机制、筛选潜在疗法和绘制复杂的发展轨迹。 

为了概括这一总体目标,将这种全面的框架正式概念化为一个细胞世界模型。类似于人工智能中的世界模型,这些模型学习环境的紧凑表示并支持条件模拟,细胞世界模型旨在表示转录组状态的分布及其条件动态。通过明确地建模这种内在状态空间,此类系统可以将单细胞生物学从静态目录学推向能够在干预下模拟高保真细胞状态及其反应的计算环境。 

受自然语言处理中基础模型成功的启发,转录组的大规模自监督学习最近取得了进展,包括 scGPTGeneformerscFoundation CellFM,预训练的基础模型能够捕捉基因表达的迁移性结构,并在不同数据集的共享表示空间中组织细胞。然而,这些模型主要针对静态表示的学习进行优化,而非生成式模拟。现有的生成式方法,如 scDiffusion scVI,在转录组生成和扰动建模方面显示出潜力。然而,它们的性能受限于连续数据假设,这与单细胞转录组数据稀疏、离散和非序列的性质不匹配。与此同时,以扰动为重点的方法,如 STATECellFlowscDFM AlphaCell,通常学习从控制状态和扰动条件到扰动结果的直接映射。虽然这些方法对特定的预测任务有效,但它们并未模拟转录组状态的潜在分布或其条件动态。这些局限性突显了需要一种能够明确表示转录组状态空间并支持在扰动下进行条件模拟的细胞世界模型的必要性。 

最近,Zhang等人提出了 Lingshu-Cell(图1https://alibaba-damo-academy.github.io/lingshu-cell-homepage/),一种用于转录组范围内细胞状态生成建模的掩码离散扩散模型。Lingshu-Cell 通过离散基因表达标记的掩码-预测目标进行训练。这种设计使得能够对全转录组轮廓进行非自回归、双向的精细调整,同时保持与 scRNA-seq 数据稀疏、非序列特性的兼容性。Lingshu-Cell 直接对约 18,000 个基因的全转录组表达进行建模,无需进行先验基因选择,例如通过高变异性过滤或按表达水平排序,并捕捉了细胞异质性背后的复杂组合基因表达模式。在涵盖九种组织和五种物种的大规模单细胞数据集上,Lingshu-Cell 能够重现真实 scRNA-seq 数据的转录组分布、标记基因表达模式和细胞亚群比例,从而实现对异质细胞群体的逼真模拟。此外,Lingshu-Cell 将细胞类型或供体身份与扰动背景(如遗传或细胞因子扰动)嵌入到一个联合潜在空间中,用于建模全转录组表达变化对扰动的响应。它仅使用约 60 万个训练细胞,在虚拟细胞挑战 H1 遗传扰动基准测试中取得了领先性能,并在人类 PBMC的细胞因子扰动预测中表现出优异结果。综合来看,这些结果将 LingshuCell 定位为一个灵活的细胞世界模型,适用于虚拟细胞建模和跨不同生物学背景的计算机模拟扰动分析,为生物学发现和扰动筛选建立了一种新的范式。 

image.png 

1  Lingshu-Cell 框架概述。a, Lingshu-Cell 采用掩码离散扩散模型来学习和生成单细胞转录组数据。在前向过程中,基因表达值逐步被掩码(从 t=0 t=T);在反向过程中,模型迭代预测掩码值以生成真实的 scRNA-seq 表达谱。b, 生成范式的比较。与依赖固定顺序的自回归(AR)模型和将所有位置连续噪声污染的去噪扩散概率模型(DDPM)不同,Lingshu-Cell 以顺序无关的方式随机掩码和预测基因表达值,这与基因表达数据的无序结构本质上兼容。cLingshu-Cell 的应用场景,包括跨不同人类组织和物种的无条件生成,以及遗传扰动和细胞因子扰动响应预测的条件生成 

参考文献

[1] Zhang H, Yuan G H, Yuan C, et al. Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells. arXiv preprint arXiv:2603.25240, 2026. https://doi.org/10.48550/arXiv.2603.25240 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1532199.html

上一篇:相关混合数据因果发现及其在基因调控网络推断中的应用
下一篇:扩展生物信息学:迈向从数据到理论的范式转变
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-4-28 19:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部