||
CFGen:生成多模态和多标签单细胞数据
单细胞转录组学彻底改变了我们研究细胞异质性的能力,揭示了关键的生物学过程和细胞状态。单细胞RNA测序(scRNA-seq)的进展能够分析数千个细胞之间的高通量基因表达,并且提供了对细胞分化\疾病进展,以及对药物影响反应的有价值见解。识别细胞分子状态的复杂性,现代研究越来越多地整合了基因表达以外的其他测量值,例如DNA可及性,以更好地表征基因调控机制或空间分辨率水平解析组织结构。然而,技术偏见和高实验成本仍然阻碍了生物学过程中所有可能的细胞状态的同质分析。生成建模提供了一种强大的方法来通过合成生物学上有意义的单细胞数据来应对这些挑战,从而发现了未挖掘的细胞状态并改善了下游分析。
单细胞数据的生成模型,特别是变异自动编码器(VAE),已广泛用于表示学习、扰动预测和轨迹推断。最近,利用基于扩散的模型或生成对抗网络(GAN)的更复杂的方法为合成数据生成的任务铺平了道路,并且证明了在真实单细胞数据建模上表现出令人鼓舞的性能。单细胞转录组数据本质上是离散的,因为基因表达被收集为在实验中发现的转录基因拷贝数。由于离散数据与连续模型(例如高斯扩散)的不兼容,大多数方法都会通过归一化和缩放来生成预处理的数据。这限制了它们支持以原始计数为中心的下游任务的灵活性,例如批次校正、差异基因表达和细胞中转录本数量有意义的分析。此外,在有效的离散噪声模型下,单细胞计数中的技术和生物学效应已正式化,应将其纳入单细胞数据的生成模型中,以更好地近似真实数据生成过程。
在这项工作中,Palma提出了一种新方法CFGen(图1,https://github.com/theislab/CFGen),这是一种基于条件流的生成模型,旨在重现多模态单细胞离散计数。CFGen方法结合了最近的流量匹配技术的表现力与模拟各种模态的统计特性,每个模态均遵循各种模态的统计特性。此外,通过引入构图引导的概念来扩展有关流量匹配的当前文献,从而能够以单个属性或其组合为条件进行单细胞生成。
图1 CFGen生成模型。从高斯先验P0采样的噪声矢量Z0通过组成流量转化为潜在的细胞表示Z1,以多种生物学和技术属性为条件。基因表达和DNA可及性的解码器将Z1映射到负二项式和Bernoulli噪声模型的参数,从中采样了单细胞基因表达和DNA可及性峰值
作者们在多个生物数据集上评估了CFGen,证明了其在生成性能和下游应用方面的优势。CFGen主要特征如下:
•CFGen是一种用于离散多母胎单细胞数据的生成模型,该数据在指定的噪声模型下明确说明其关键统计属性。
•CFGen扩展了流匹配框架,以在多个属性下组成生成指南。
•在多个生物数据集上,CFGen模型的全基因组生成性能始终优于现有的单细胞生成模型。
•CFGen能增强下游任务中的应用,包括可靠的数据增强,以改善稀有细胞类型的分类和批次校正。
局限性
CFGen框架依赖于多个假设,包括数据独立性,在所有生物学环境中可能并不存在。因此,在使用CFGen进行生成之前,探索数据特征是必不可少的。此外,基于自动编码器的表示框架,CFGen与生成流程分开训练,这可能导致效率低下且占用内存大。
参考文献
[1] Palma, A., Richter, T., Zhang, H., Lubetzki, M., Tong, A., Dittadi, A., & Theis, F.J. (2025). Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen. https://api.semanticscholar.org/CorpusID:271218151
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-3-20 01:51
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社