||
scNET:整合单细胞数据与蛋白质互作学习上下文特异性基因和细胞嵌入
单细胞RNA测序(scRNA-seq)数据通过揭示固有的细胞异质性,彻底改变了我们对复杂生物系统的理解。通常,scRNA-seq分析涉及基于图聚类以识别不同的细胞群体,然后进行差异基因表达分析。这种方法突出了与特定细胞状态和功能相关的关键基因。
单细胞数据的一个关键局限性是其零值特性。这些零计数代表了生物信号和技术局限性的混合,与bulk RNA测序(RNA-seq)相比,零值率明显更高。这导致了很大一部分错误的零值,掩盖了真实信号并导致基因表达的相关性丧失,从而努力描绘复合物和通路激活。解决此问题已为scRNA-seq数据开发了各种方法。这些方法包括零值的概率模型,基于最近邻的表达谱的平滑以及发现密集的潜在表示技术。尽管这些方法在理论上是能够揭示基因-基因相互作用的能力,但大多数方法都集中在零值事件和细胞聚类的数值恢复。
提出了其他几种方法,以专门解决scRNA-seq数据中相关性的丧失。Aleksander 等人提出的一个模型引入了一个细胞特异性相关模型,该模型考虑了测序深度和读取错误以推断细胞类型特异性共表达。但是,这些和上述方法旨在将真实的生物学信号与噪声区分开,而不使用先验和互补领域知识。
蛋白质-蛋白质相互作用(PPI)网络有效地捕获了基因的功能上下文,包括痛苦和复合激活以及信号转导。这些网络的一个关键局限性是它们通常是在全局内构建以捕获物种水平的相互作用关系,而不会反映在不同细胞类型和生物条件上发生的动态变化。因此,将PPI与scRNA-seq集成具有很大的潜力,因为它结合了scRNA-seq的动态性质与PPI网络提供的强功能注释和上下文信息,这可以增强下游scRNA-seq分析。
在更广泛的范围上,将PPI代表的关系集成到特定数据集中可能有助于识别特定条件下的基因-基因关系。在诸如Zand和Ruan之类的研究中探讨了这一概念,他们提出了在PPI边缘传播基因表达的想法。另一项研究展示了如何将PPI网络与一组差异表达的基因一起使用,以找到一个关键基因的子集,这些基因可以解释患者在非小细胞肺癌中的存活率。进一步的研究表明,这种整合可以增强基本的scRNA-seq任务,例如降维、缺失值插补和细胞-细胞相似性分析。引入了基于PPI的非负矩阵分解框架,用于将PPI纳入scRNA-seq数据的缺失值插补。最近,Li等人引入了一种称为scLINE的图嵌入方法,该方法将scRNA-seq数据与各种生物网络集成在一起,以捕获密集的潜在空间表示内的基因-基因和细胞-细胞关系。尽管如此,在嵌入网络信息的同时,可以同时学习和完善基因-基因和细胞-细胞关系的进一步方法可能是有优势的。
自然语言处理领域和大型语言模型的最新进展也已引入了scRNA-seq领域。尽管这些模型在捕获图谱尺度动态方面表现出强大性能,但当应用于特定数据集时,它们通常需要使用监督损失(通常使用细胞标签)进行微调,这在大多数新测序的数据集中可能不可用。因此,需要一个可以应用于未标记的中小型scRNA-seq数据集的无监督框架。
最近,Li等人通过整合scRNA-seq图谱和PPI网络引入了一个基于图神经网络(GNN)的方法(PINNACLE),用于学习基因表示。他们的工作证明了使用图谱级别的深度学习框架将scRNA-seq数据与PPI信息相结合的优势。
最近,Sheinin等人介绍了scNET方法(图1,https://github.com/madilabcode/scNET),这是一种结合基因-基因和细胞-细胞关系的方法,以同时学习基因和细胞嵌入。scNET一方面基于蛋白质-蛋白质相互作用,另一方面学习了基于蛋白质-蛋白质相互作用的GNN。scNET交替地在两个网络上传播基因表达信息,旨在同时平滑噪声并学习特定条件的基因和细胞嵌入。它还引入了一种基于边缘注意的机制,以完善细胞-细胞关系图(K近邻,KNN),放松每个细胞固定数量连接的共同假设,这可能与实际生物系统不符。基于基因表达数据的基因和细胞双重视角有助于发现两种类型的关系及其在下游任务中的使用。
图1 自动编码器模型体系结构。最初,PPI网络、KNN图和基因表达数据输入到双视图编码器(虚线)中。随后,使用图层来提取细胞和基因的潜在表示。然后,内部产品解码器用于重建网络连接,而完全连接的层负责重建基因表达。然后,KNN图使用注意系数进行修剪以优化模型性能
结果表明,scNET超过了传统差值方法和基因-基因关系识别高级统计模型。作者们还证明了scNET细胞嵌入的潜力,从而识别更好的细胞聚类。最后,scNET的重建基因表达在识别不同细胞类型和生物学条件下差异富集通路方面具有明显的优势。
参考文献
[1] Sheinin R, Sharan R, Madi A. scNET: learning context-specific gene and cell embeddings by integrating single-cell gene expression data with protein-protein interactions. Nat Methods. 2025 Mar 17. doi: 10.1038/s41592-025-02627-0.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
1/1 | 总计:3 | 首页 | 上一页 | 下一页 | 末页 | 跳转 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-4-14 08:42
Powered by ScienceNet.cn
Copyright © 2007-2025 中国科学报社