zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

CFGen:生成多模态和多标签单细胞数据

已有 427 次阅读 2025-3-18 20:14 |个人分类:科普|系统分类:科普集锦

CFGen:生成多模态和多标签单细胞数据

单细胞转录组学彻底改变了我们研究细胞异质性的能力,揭示了关键的生物学过程和细胞状态。单细胞RNA测序(scRNA-seq)的进展能够分析数千个细胞之间的高通量基因表达,并且提供了对细胞分化\疾病进展,以及对药物影响反应的有价值见解。识别细胞分子状态的复杂性,现代研究越来越多地整合了基因表达以外的其他测量值,例如DNA可及性,以更好地表征基因调控机制或空间分辨率水平解析组织结构。然而,技术偏见和高实验成本仍然阻碍了生物学过程中所有可能的细胞状态的同质分析。生成建模提供了一种强大的方法来通过合成生物学上有意义的单细胞数据来应对这些挑战,从而发现了未挖掘的细胞状态并改善了下游分析。

单细胞数据的生成模型,特别是变异自动编码器(VAE),已广泛用于表示学习、扰动预测和轨迹推断。最近,利用基于扩散的模型或生成对抗网络(GAN)的更复杂的方法为合成数据生成的任务铺平了道路,并且证明了在真实单细胞数据建模上表现出令人鼓舞的性能。单细胞转录组数据本质上是离散的,因为基因表达被收集为在实验中发现的转录基因拷贝数。由于离散数据与连续模型(例如高斯扩散)的不兼容,大多数方法都会通过归一化和缩放来生成预处理的数据。这限制了它们支持以原始计数为中心的下游任务的灵活性,例如批次校正、差异基因表达和细胞中转录本数量有意义的分析。此外,在有效的离散噪声模型下,单细胞计数中的技术和生物学效应已正式化,应将其纳入单细胞数据的生成模型中,以更好地近似真实数据生成过程。 

在这项工作中,Palma提出了一种新方法CFGen(图1https://github.com/theislab/CFGen),这是一种基于条件流的生成模型,旨在重现多模态单细胞离散计数。CFGen方法结合了最近的流量匹配技术的表现力与模拟各种模态的统计特性,每个模态均遵循各种模态的统计特性。此外,通过引入构图引导的概念来扩展有关流量匹配的当前文献,从而能够以单个属性或其组合为条件进行单细胞生成。 

image.png 

1 CFGen生成模型。从高斯先验P0采样的噪声矢量Z0通过组成流量转化为潜在的细胞表示Z1,以多种生物学和技术属性为条件。基因表达和DNA可及性的解码器将Z1映射到负二项式和Bernoulli噪声模型的参数,从中采样了单细胞基因表达和DNA可及性峰值 

作者们在多个生物数据集上评估了CFGen,证明了其在生成性能和下游应用方面的优势。CFGen主要特征如下: 

CFGen是一种用于离散多母胎单细胞数据的生成模型,该数据在指定的噪声模型下明确说明其关键统计属性。

CFGen扩展了流匹配框架,以在多个属性下组成生成指南。

•在多个生物数据集上,CFGen模型的全基因组生成性能始终优于现有的单细胞生成模型。

CFGen能增强下游任务中的应用,包括可靠的数据增强,以改善稀有细胞类型的分类和批次校正。 

局限性

CFGen框架依赖于多个假设,包括数据独立性,在所有生物学环境中可能并不存在。因此,在使用CFGen进行生成之前,探索数据特征是必不可少的。此外,基于自动编码器的表示框架,CFGen与生成流程分开训练,这可能导致效率低下且占用内存大。 

参考文献

[1] Palma, A., Richter, T., Zhang, H., Lubetzki, M., Tong, A., Dittadi, A., & Theis, F.J. (2025). Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen. https://api.semanticscholar.org/CorpusID:271218151 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1478190.html

上一篇:MLOmics:癌症多组学数据的机器学习方法基准
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

1/0 | 闁诡剚妲掗锟�:0 | 濡絾鐗犻妴锟� | 濞戞挸锕g粩瀛樸亜閿燂拷 | 閻犲搫鐤囧ù锟�

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-3-20 01:51

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部