||
JOINTLY:识别单细胞转录组内可解释的联合聚类
单细胞和单核RNA测序(sxRNA-seq)具有巨大的潜力,可以增强我们对体内平衡过程中的人类生物学以及发育或疾病如何塑造我们的细胞、组织和器官的理解。为了将特定基因类型或细胞状态中的基因表达程序与疾病或发育状态联系起来,需要去除样本之间的批次效应,这是变异的技术来源,因为它们可能会引入虚假或掩盖真实的关联。
近年来,有几种方法试图通过使用基于图(例如,fastMNN)、统计(例如,Harmony)或基于深度学习的(例如,scVI)方法集成sxRNA-seq数据集来克服批处理效应的问题。然而,这仍然是一个具有挑战性的问题。Theis小组最近对批次集成方法进行的综合基准测试发现,每种方法在保护生物变异和消除批量效应之间都有不同的平衡,这种平衡取决于集成任务。除了保留不同数量的生物变异外,每种方法还具有不同的和特定于任务的特征,这可能会导致过度校正,其中生物变异而不是批效应被去除。可解释的批次集成方法可以帮助评估特定任务中的集成性能,使用户能够评估驱动集成的基因或基因模块在生物环境中是否有意义。
已有可解释的批次集成方法,如LIGER,它基于非负矩阵分解(NMF)。LIGER学习线性组合中可以描述每个细胞的共享(或特定数据集)因素,这些因素是可以解释的,因为它们是由基因的非负线性组合定义的。因此,可用于聚类的因素也代表加权基因模块,允许用户评估集成并有助于数据集的功能注释。然而,在基准测试中,这种线性方法在去除批次效果方面并不有效,这可能是因为批次处理效果可能是高度非线性的。
在这里,Møller等人介绍了一个基于NMF的混合线性和非线性聚类工具JOINTLY(图1)。在总共52个数据集组成的5个不同的集成任务中对JOINTLY和其他8种批次集成方法进行了基准测试。共同实现最先进的性能,并产生可解释的因素。作者们发现,与可解释因子相关的基因比传统的标记基因对细胞类型更具特异性,它们可用于指导细胞类型注释,并发现跨细胞类型和伪时间的活性生物过程。通过整合来自不同组织的多供体数据集来评估对过度校正的稳健性,并发现JOINTLY消除了组织内批次效应,但保留了组织间的生物变异性。最后,通过聚类和标记细胞类型和状态,从六个不同研究的白色脂肪组织展示了JOINTLY创建一个组织图谱。基于这些高质量的标签,创建了白色脂肪组织的参考图谱(WATLAS),深入表征了43种细胞类型和状态的转录组。WATLAS是一个社区资源,它是假设生成的来源,用于通过共嵌入和使用迁移学习的细胞类型和状态注释将新数据集上下文化,以及用作反卷积的参考。WATLAS分析揭示了瘦和肥胖供体以及不同白色脂肪组织库之间的成分差异,通过对来自大约1300个额外供体的大量RNA测序样本进行反折叠来支持这一点。
图1 JOINTLY聚集单细胞RNA-seq和单核RNA-seq (sxRNA-seq)数据集,没有明确的整合。
JOINTLY的R代码参见:https://github.com/madsen-lab/rJOINTLY,相关的复现脚本参见:http://www.github.com/madsen-lab/JOINTLY_reproducibility。
参考文献
[1] Møller AF, Madsen JGS. JOINTLY: interpretable joint clustering of single-cell transcriptomes. Nat Commun. 2023 Dec 20;14(1):8473. doi: 10.1038/s41467-023-44279-8.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 22:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社