||
北京时间2023年5月11日晚23时,美国加州大学洛杉矶分校(UCLA)李婧翌团队在Nature Biotechnology杂志上发表题为“scDesign3 generates realistic in silico data for multimodal single-cell and spatial omics”的文章,开发了scDesign3这一多功能模拟器用于单细胞多组学和空间组学的数据模拟和统计推断。
单细胞基因组学和空间转录组学为人们认识细胞中的分子生物学机制提供了全新的视角。单细胞转录组学RNA-seq技术通过测量细胞的转录组帮助人们识别离散的细胞类型或连续的细胞分化轨迹。其他单细胞组学技术,例如染色质可及性,DNA甲基化和蛋白质丰度,以及单细胞多组学(multi-omics),提供了更加丰富的单细胞分子生物学信息。与此同时,空间转录组学的出现使得对组织空间中基因表达的测量成为可能,进而成为目前的热点研究。研究者们已经开发了上千种计算方法,用于完成单细胞和空间组学数据各种分析任务;海量的算法这使得算法基准化成为算法开发者和用户面临的紧迫挑战。由于实际数据缺少“基准真相(ground truth)”,模拟器成为了算法开发和算法比较的必需工具。尽管已有很多模拟器被开发,但它们都有明显的局限。很少有模拟器能够通过模拟真实数据来生成来自连续细胞分化轨迹的单细胞转录组学数据,并且大多数模拟器缺乏模拟多组学和空间转录组学数据的能力。
scDesign3提供了首个泛用的概率模型用于统一单细胞和空间组学数据的生成和推断。scDesign3不仅配备了可解释的参数和模型似然度(likelihood),而且还具有生成定制化的仿真数据的独特优势。scDesign3的定制仿真数据可以作为计算分析的阴性对照和阳性对照。除此之外,scDesign3提供了基于模型似然度的无监督度量,用以评估从数据中推断的细胞聚类、细胞轨迹和细胞空间位置和数据的拟合程度。scDesign3的概率模型拥有可解释的参数,可以帮助用户探索、模拟和修改数据。
图1:scDesign3的功能:左,scDesign3可以生成多种仿真数据;右,scDesign3可以解释真实数据,以非监督的方式评价标签质量,且生成用户指定特征的对照数据
在文章第一部分,作者展示了scDesign3的仿真能力,包括生成高度仿真的单细胞连续分化转录组数据,空间转录组数据,染色质可及性数据和其他多种组学数据(图1左)。在文章第二部分,作者展示了scDesign3的数据解释能力,即通过估计其模型的参数来帮助解释真实数据,利用拟合度评估标签质量(例如细胞聚类、细胞拟时序和细胞的推断空间位置)和产生多种用户指定特征的仿真数据(图1右)。
总而言之,scDesign3是一个多功能套件,用于基准测试计算方法和解释单细胞和空间组学数据。
UCLA生物信息学博士生宋东源是本文的第一作者,统计系博士生王清扬是本文的第二作者,李婧翌教授是本文的通讯作者。scDesign3的R包和在线教程可参考:
https://songdongyuan1994.github.io/scDesign3/docs/index.html
相关论文信息:
DOI:10.1038/s41587-023-01772-1
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-10 02:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社