||
DeepRIG:用图形自编码器模型从单细胞转录组推断基因调控网络
与批量RNA测序(RNA-seq)技术相比,单细胞RNA-seq (scRNA-seq)数据提供了鉴定细胞异质性和动态细胞分化生物学过程的机会。在scRNA-seq数据中,基因调控网络(GRN)的重建可以成功揭示细胞分化机制。GRN是在基因水平上描述复杂生物系统的调控相互作用结构。它是由细胞内或特定基因组内的基因与基因之间的相互作用形成的,特别是那些基于基因调控的基因。不幸的是,从单细胞转录组学推断GRN是具有挑战性的,因为单细胞的基因表达是高度可变的。
为了解决这个问题,已经开发了数十种计算算法从scRNA-seq数据中推断GRN。因此,构建基于相关性的TF及其靶基因共表达网络的策略已被广泛研究来推断GRN。其中许多方法是基于相关系数或互信息来测量基因的共表达模式。Qiu等人整合了RNA动力学建模、鲁棒向量场重建和几何分析来构建和解释单细胞转录组向量场,从而能够深入了解细胞命运转变和遗传扰动。由于伪时间和带时间戳的单细胞转录谱被认为提供了反映细胞分化的动态信息,一些方法采用回归模型利用伪时间顺序数据或带时间戳的数据来测量基因表达的变化,还有一些方法采用线性常分化方程(ODE)来模拟调控动力学。Schiebinger介绍了Waddington-OT,这是一种创新的方法,利用单细胞RNA测序的发育时间过程来推断祖先-后代命运,模拟调节程序,并深入了解包括重编程在内的多种发育过程。此外,包括SCENIC、IRIS3和CeRIS在内的方法已被开发出来,以确定特定细胞类型的活性调控,并进一步揭示各种疾病中潜在的GRN。最近,深度学习模型也被提出,利用卷积神经网络(CNN)和变分自编码器从scRNA-seq数据中捕捉复杂的非线性规律。虽然这些方法取得了显著的进展,但大多只关注基因对之间的调控关系,未能充分利用GRN内在的全局调控结构,而这对于探索复杂生物系统中TF与其靶基因之间的调控模式至关重要。
Wang等人引入DeepRIG(图1),利用图形自编码器(GAE)模型从单细胞转录组学中重建GRN。为了了解全局调控结构,DeepRIG采用了从scRNA-seq数据的基因表达谱中计算每对基因的相关系数的技巧,并基于对噪声具有鲁棒性的共表达模式构建了先验调控图。将GRN转换成基因图是利用其固有的全局结构,通过整合基因间的邻域信息来解耦基因间复杂的调控关系的有效方法。图中的节点表示基因,边表示它们的调控关系。进一步将GRN推理任务转化为图中缺失边的预测。同时,利用GAE将全局调控信息嵌入到基因潜在表征中,并结合基因的先验调控图和表达谱重建GRN。DeepRIG可以通过半监督的方式以端到端方式准确地推断GRN,仅依赖于基因表达数据和一小组标记的正关系对(通常称为ground truth)。
图1 DeepRIG推断基因调控网络的工作流程。对于scRNA-seq数据集,DeepRIG从基因表达数据开始构建加权基因共表达网络(weighted gene coexpression network, WGCN)。根据WGCN构建了基因先验调控图。然后将先验调控图和节点特征矩阵(基因表达谱)输入到图形自编码器(GAE)中。GAE模型由图卷积网络(GCNs)和评分函数组成。GCN作为编码器,学习并将全局调控结构嵌入到基因的潜在表征中,评分函数作为解码器,对每对学习到的基因表征进行评分,以重建GRN
作者们广泛评估了DeepRIG在BEELINE生成的计算机数据集和来自真实细胞的scRNA-seq数据集上进行GRN推断的性能。基准测试结果表明,DeepRIG可以准确地重建GRN,并且优于9种最先进的GRN推理方法。与直接的WGCNA模型相比,进一步验证了GAE模型可以大大提高GRN的推断性能。此外,利用DeepRIG从人外周血单核细胞(PBMCs)中推断出细胞类型特异性GRN,并鉴定出CD14+单核细胞和B细胞的多个枢纽TF和标记基因,表明DeepRIG可以辅助确定细胞类型依赖的细胞类型特异性GRN。还将DeepRIG应用于三阴性乳腺癌(TNBC)样本,通过分析推断的GRN,观察到10个具有显著拓扑特征的基因。据报道,其中4个基因参与TNBC的发生、进展和抑制,这表明DeepRIG能够在疾病的复杂生物系统中发现新的调节因子或靶点。
DeepRIG使用Python实现,详见https://github.com/JChander/DeepRIG。
参考文献
[1]Wang J, Chen Y, Zou Q. Inferring gene regulatory network from single-cell transcriptomes with graph autoencoder model. PLoS Genet. 2023 Sep 13;19(9):e1010942. doi: 10.1371/journal.pgen.1010942.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 14:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社