||
scMarkerGene:细胞类型特异性标记基因识别
单细胞 RNA 测序(scRNA-seq)的快速发展使得能够在单细胞分辨率下进行转录组分析,揭示了批量分析中隐藏的细胞异质性、稀有亚群和谱系轨迹。随着 scRNA-seq 研究的规模扩大,可靠标记基因的识别已成为分析的核心,能够对几乎所有组织和物种中的细胞类型进行全面分析。标记基因通常是基因表达谱的一个小部分,能够区分数据集中细胞的亚群。它们作为定义细胞身份和状态的分子标志,为准确的细胞类型注释提供基础,并促进疾病相关细胞程序的识别。理想情况下,标记基因应表现出很强的特异性——在一个细胞类型中高度表达,而在其他细胞类型中表达量极低。因此,稳健的标记基因选择是单细胞数据分析的关键步骤。
针对标记基因识别的需求,已提出了许多计算框架。传统方法,如广泛使用的 scanpy 工具包中实现的方法,依赖于差异表达检验(例如 Wilcoxon 秩和检验、t 检验或 log-fold change)来识别细胞类型富集基因,但由于噪声和批次效应,其结果往往不稳定。scMAGs包含一个类似于差异表达检验的初步基因过滤步骤,但标记基因的最终选择基于聚类有效性指标,而非统计显著性检验。机器学习模型如 scGeneFit和 SMaSH应用回归或稀疏矩阵分解将表达模式与细胞身份联系起来,而深度学习策略如 MarkerMap采用基于图架构或可解释的神经网络模型来捕捉细胞-基因的非线性关系。scVI 结合贝叶斯统计与深度生成模型来检测差异表达基因。尽管这些基于机器学习的方法提高了准确性,但它们通常表现为“黑箱”,提供有限的解释性和可重复性。像 Ns-Forest这样的基于树的方法通过特征重要性对基因进行排序,试图解决可解释性问题,但它们对单一模型的依赖使它们容易受到随机性的影响且泛化能力较差。总体而言,现有方法面临三大挑战:(i)不稳定且不可重复的标记基因列表,(ii)缺乏透明的可解释性,以及(iii)在不同噪声或 dropout 水平的数据集上泛化能力差。这些局限性突显了需要一种稳健、可解释且可重复的标记基因发现框架。
已有研究表明,基因贡献分数能够定量地捕捉每个基因对模型预测的影响,揭示了具有生物学意义的特征,如组织特异性基因和癌症生物标志物。然而,最初为计算机视觉领域开发的可解释性方法在生物数据上往往表现出较差的可重复性,这是由于神经网络训练的随机性以及基因表达分布的复杂性所致。为了解决这个问题,引入了一种模型聚合策略,该策略能够在多个独立训练的模型中稳定贡献分数。
基于这些发现,Zhang等人开发了 scMarkerGene(图1,https://scmarkergene.zhaopage.com),一个用于细胞类型特异性标记基因发现的可解释神经网络框架。scMarkerGene 聚合多个多层感知器的贡献分数以减少方差并增强鲁棒性,生成一个细胞类型-基因贡献分数矩阵,量化每个基因在区分细胞类型中的相对重要性。候选基因最初根据其聚合贡献分数进行选择,然后使用一种新引入的“标记分数”指标重新排序,该指标量化细胞类型的特异性。这种两步策略产生了高度特异的标记基因,增强了稳定性和可重复性,并确保了其在不同规模数据集(包括高稀疏性或 dropout 率的数据集)中的适用性。通过结合可解释性和集成稳定性,scMarkerGene 为 scRNA-seq 分析中的标记基因发现提供了一个灵活且具有生物学意义的解决方案。

图1 scMarkerGene 工作流程。在步骤 1 中,输入的 scRNA-seq 表达矩阵被随机分割为训练集和验证集(9:1),并用于训练一个由细胞类型注释监督的多层感知器分类器。训练过程由验证准确率指导,并使用 Optuna 迭代优化超参数。一旦确定最优超参数集,将应用集成学习进一步生成更稳健的归因分数矩阵。在步骤 2 中,选择贡献分数最高的前 N 个基因(用户定义)作为每种细胞类型的候选标记基因集。然后通过计算标记分数对这些基因列表进行重新排序,从而得到最终的标记基因列表
参考文献
[1] Zhang J, Kou SH, Zhao J, Li X, Zhao Y. scMarkerGene: an interpretable neural network framework for cell-type-specific marker gene discovery. Brief Bioinform. 2026 May 4;27(3):bbag223. https://doi.org/10.1093/bib/bbag223
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-7 20:21
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社