zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

scNET:整合单细胞数据与蛋白质互作学习上下文特异性基因和细胞嵌入

已有 691 次阅读 2025-4-7 19:37 |个人分类:科普|系统分类:科普集锦

scNET:整合单细胞数据与蛋白质互作学习上下文特异性基因和细胞嵌入 

单细胞RNA测序(scRNA-seq)数据通过揭示固有的细胞异质性,彻底改变了我们对复杂生物系统的理解。通常,scRNA-seq分析涉及基于图聚类以识别不同的细胞群体,然后进行差异基因表达分析。这种方法突出了与特定细胞状态和功能相关的关键基因。 

单细胞数据的一个关键局限性是其零值特性。这些零计数代表了生物信号和技术局限性的混合,与bulk RNA测序(RNA-seq)相比,零值率明显更高。这导致了很大一部分错误的零值,掩盖了真实信号并导致基因表达的相关性丧失,从而努力描绘复合物和通路激活。解决此问题已为scRNA-seq数据开发了各种方法。这些方法包括零值的概率模型,基于最近邻的表达谱的平滑以及发现密集的潜在表示技术。尽管这些方法在理论上是能够揭示基因-基因相互作用的能力,但大多数方法都集中在零值事件和细胞聚类的数值恢复。 

提出了其他几种方法,以专门解决scRNA-seq数据中相关性的丧失。Aleksander 等人提出的一个模型引入了一个细胞特异性相关模型,该模型考虑了测序深度和读取错误以推断细胞类型特异性共表达。但是,这些和上述方法旨在将真实的生物学信号与噪声区分开,而不使用先验和互补领域知识。 

蛋白质-蛋白质相互作用(PPI)网络有效地捕获了基因的功能上下文,包括痛苦和复合激活以及信号转导。这些网络的一个关键局限性是它们通常是在全局内构建以捕获物种水平的相互作用关系,而不会反映在不同细胞类型和生物条件上发生的动态变化。因此,将PPIscRNA-seq集成具有很大的潜力,因为它结合了scRNA-seq的动态性质与PPI网络提供的强功能注释和上下文信息,这可以增强下游scRNA-seq分析。 

在更广泛的范围上,将PPI代表的关系集成到特定数据集中可能有助于识别特定条件下的基因-基因关系。在诸如ZandRuan之类的研究中探讨了这一概念,他们提出了在PPI边缘传播基因表达的想法。另一项研究展示了如何将PPI网络与一组差异表达的基因一起使用,以找到一个关键基因的子集,这些基因可以解释患者在非小细胞肺癌中的存活率。进一步的研究表明,这种整合可以增强基本的scRNA-seq任务,例如降维、缺失值插补和细胞-细胞相似性分析。引入了基于PPI的非负矩阵分解框架,用于将PPI纳入scRNA-seq数据的缺失值插补。最近,Li等人引入了一种称为scLINE的图嵌入方法,该方法将scRNA-seq数据与各种生物网络集成在一起,以捕获密集的潜在空间表示内的基因-基因和细胞-细胞关系。尽管如此,在嵌入网络信息的同时,可以同时学习和完善基因-基因和细胞-细胞关系的进一步方法可能是有优势的。 

自然语言处理领域和大型语言模型的最新进展也已引入了scRNA-seq领域。尽管这些模型在捕获图谱尺度动态方面表现出强大性能,但当应用于特定数据集时,它们通常需要使用监督损失(通常使用细胞标签)进行微调,这在大多数新测序的数据集中可能不可用。因此,需要一个可以应用于未标记的中小型scRNA-seq数据集的无监督框架。 

最近,Li等人通过整合scRNA-seq图谱和PPI网络引入了一个基于图神经网络(GNN)的方法(PINNACLE),用于学习基因表示。他们的工作证明了使用图谱级别的深度学习框架将scRNA-seq数据与PPI信息相结合的优势。 

最近,Sheinin等人介绍了scNET方法(图1https://github.com/madilabcode/scNET),这是一种结合基因-基因和细胞-细胞关系的方法,以同时学习基因和细胞嵌入。scNET一方面基于蛋白质-蛋白质相互作用,另一方面学习了基于蛋白质-蛋白质相互作用的GNNscNET交替地在两个网络上传播基因表达信息,旨在同时平滑噪声并学习特定条件的基因和细胞嵌入。它还引入了一种基于边缘注意的机制,以完善细胞-细胞关系图(K近邻,KNN),放松每个细胞固定数量连接的共同假设,这可能与实际生物系统不符。基于基因表达数据的基因和细胞双重视角有助于发现两种类型的关系及其在下游任务中的使用。 

image.png

1 自动编码器模型体系结构。最初,PPI网络、KNN图和基因表达数据输入到双视图编码器(虚线)中。随后,使用图层来提取细胞和基因的潜在表示。然后,内部产品解码器用于重建网络连接,而完全连接的层负责重建基因表达。然后,KNN图使用注意系数进行修剪以优化模型性能 

结果表明,scNET超过了传统差值方法和基因-基因关系识别高级统计模型。作者们还证明了scNET细胞嵌入的潜力,从而识别更好的细胞聚类。最后,scNET的重建基因表达在识别不同细胞类型和生物学条件下差异富集通路方面具有明显的优势。 

参考文献

[1] Sheinin R, Sharan R, Madi A. scNET: learning context-specific gene and cell embeddings by integrating single-cell gene expression data with protein-protein interactions. Nat Methods. 2025 Mar 17. doi: 10.1038/s41592-025-02627-0.  

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1481026.html

上一篇:SCEMENT:大规模单细胞转录组数据整合高效方法
下一篇:GLACIER:解码空间细胞拓扑的因果驱动因素
收藏 IP: 39.128.49.*| 热度|

1 许培扬

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

IP: 223.72.64.*   回复 | 赞 +1 [3]许培扬   2025-4-7 20:55
细胞嵌入生成:

全局池化:对基因嵌入
𝐻
H 进行最大池化、均值池化或基于表达量的加权池化,得到细胞嵌入
𝑧

𝑅
𝑑
z∈R
d


基因嵌入优化:

联合优化基因嵌入
𝐻
H,使其既保留PPI结构(通过图重构损失),又反映单细胞表达模式(如通过对比学习)。

3. 损失函数设计
多任务学习框架:

重构损失:解码器从细胞嵌入
𝑧
z 重构基因表达(如MSE或负二项损失)。

图结构损失:鼓励相邻基因在嵌入空间中相似(如随机游走对比损失,如DeepWalk)。

分类/聚类损失:若有监督标签,用交叉熵或对比损失约束细胞嵌入区分不同类型。

稀疏性约束:L1正则化或Kullback-Leibler散度,避免过拟合。
IP: 223.72.64.*   回复 | 赞 +1 [2]许培扬   2025-4-7 20:54
整合单细胞转录组数据与蛋白质互作网络(PPI)以学习上下文特异性基因和细胞嵌入,是一个结合多模态数据与图结构分析的复杂任务。以下是分步解决方案框架及关键技术要点:

1. 数据预处理与整合
单细胞数据:

标准化处理(如对数归一化、SCTransform)。

筛选高变异基因或关键标记基因,降低维度。

标注细胞类型/状态(若有监督任务)。

PPI网络:

构建基因-蛋白质对应关系(确保基因名与单细胞数据一致)。

将PPI转化为无向图
𝐺
=
(
𝑉
,
𝐸
)
G=(V,E),节点
𝑉
V 为基因对应蛋白质,边
𝐸
E 为互作关系。

可选:为边添加权重(如互作置信度或共表达频率)。

2. 模型架构设计
核心思想:
将单细胞基因表达作为节点特征,PPI网络作为图结构,通过图神经网络(GNN)学习基因嵌入,再聚合为细胞嵌入,同时引入上下文动态调整机制。

模型组件:
动态图注意力网络:

输入:每个细胞的基因表达向量
𝑋

𝑅

𝑉

X∈R
∣V∣


节点特征初始化:基因表达值
𝑋
X 作为初始节点特征。

动态边权重:通过注意力机制计算边权重
𝛼
𝑖
𝑗
α
ij

,基于基因表达相似性或上下文相关性(如
𝛼
𝑖
𝑗
=
softmax
(
𝑓
(
𝑥
𝑖
,
𝑥
𝑗
)
)
α
ij

=softmax(f(x
i

,x
j

)),其中
𝑓
f 为可学习函数)。

图卷积层:堆叠多层GAT(Graph Attention Network)或GCN(Graph Convolutional Network),聚合邻居信息生成基因嵌入
𝐻

𝑅

𝑉

×
𝑑
H∈R
∣V∣×d


上下文特异性建模:

条件门控机制:根据细胞类型或状态(如通过聚类或预训练分类器获得),生成条件向量
𝑐
c,动态调整GNN参数或边权重。

多头注意力:对不同生物上下文(如细胞类型)分配独立注意力头,分别学习子网络。

细胞嵌入生成:

全局池化:对基因嵌入
𝐻
H 进行最大池化、均值池化或基于表达量的加权池化,得到细胞嵌入
𝑧

𝑅
𝑑
z∈R
d


基因嵌入优化:

联合优化基因嵌入
...
IP: 223.72.64.*   回复 | 赞 +1 [1]许培扬   2025-4-7 20:53
4. 实施细节
批次处理:对单细胞数据分批次训练,动态子采样PPI子图(如基于当前批次表达的基因)。

处理稀疏性:对未表达的基因采用掩码或零填充,避免噪声传播。

异构数据对齐:若PPI与单细胞基因集不完全重叠,使用投影层或插值。

5. 评估与解释
下游任务验证:

细胞类型分类(准确率、F1-score)。

聚类质量(ARI、NMI)。

基因功能富集分析(检查高嵌入相似性的基因是否共享通路)。

可解释性工具:

可视化基因嵌入(UMAP/t-SNE),观察PPI模块与表达模式关联。

计算注意力权重,识别关键基因互作对特定细胞状态的贡献。

6. 潜在挑战与解决方案
计算复杂度:采用子图采样、基因筛选或分层池化降低计算量。

PPI噪声:整合多来源PPI数据(如STRING、BioGRID)并过滤低置信度边。

批次效应:在模型输入前使用Harmony或BBKNN去批次,或在损失函数中添加对抗训练。

示例工具与代码库
框架:PyTorch Geometric + Scanpy。

参考模型:

scGNN:单细胞GNN基础架构。

DANCE(https://github.com/OmicsML/dance):整合多组数据的工具库。

DeepCCI:动态上下文感知的细胞互作模型。

通过上述方法,模型能够捕捉基因在特定细胞状态下的功能协同性(由PPI驱动),同时保留单细胞表达异质性,为精准解析细胞状态转换或疾病机制提供支持。

1/1 | 总计:3 | 首页 | 上一页 | 下一页 | 末页 | 跳转

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-4-14 08:42

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部