博文

scMarkerGene：细胞类型特异性标记基因识别

已有 590 次阅读 2026-6-7 11:17 |个人分类:科普|系统分类:科普集锦

scMarkerGene：细胞类型特异性标记基因识别

单细胞 RNA 测序（scRNA-seq）的快速发展使得能够在单细胞分辨率下进行转录组分析，揭示了批量分析中隐藏的细胞异质性、稀有亚群和谱系轨迹。随着 scRNA-seq 研究的规模扩大，可靠标记基因的识别已成为分析的核心，能够对几乎所有组织和物种中的细胞类型进行全面分析。标记基因通常是基因表达谱的一个小部分，能够区分数据集中细胞的亚群。它们作为定义细胞身份和状态的分子标志，为准确的细胞类型注释提供基础，并促进疾病相关细胞程序的识别。理想情况下，标记基因应表现出很强的特异性——在一个细胞类型中高度表达，而在其他细胞类型中表达量极低。因此，稳健的标记基因选择是单细胞数据分析的关键步骤。

针对标记基因识别的需求，已提出了许多计算框架。传统方法，如广泛使用的 scanpy 工具包中实现的方法，依赖于差异表达检验（例如 Wilcoxon 秩和检验、t 检验或 log-fold change）来识别细胞类型富集基因，但由于噪声和批次效应，其结果往往不稳定。scMAGs包含一个类似于差异表达检验的初步基因过滤步骤，但标记基因的最终选择基于聚类有效性指标，而非统计显著性检验。机器学习模型如 scGeneFit和 SMaSH应用回归或稀疏矩阵分解将表达模式与细胞身份联系起来，而深度学习策略如 MarkerMap采用基于图架构或可解释的神经网络模型来捕捉细胞-基因的非线性关系。scVI 结合贝叶斯统计与深度生成模型来检测差异表达基因。尽管这些基于机器学习的方法提高了准确性，但它们通常表现为“黑箱”，提供有限的解释性和可重复性。像 Ns-Forest这样的基于树的方法通过特征重要性对基因进行排序，试图解决可解释性问题，但它们对单一模型的依赖使它们容易受到随机性的影响且泛化能力较差。总体而言，现有方法面临三大挑战：(i)不稳定且不可重复的标记基因列表，(ii)缺乏透明的可解释性，以及(iii)在不同噪声或 dropout 水平的数据集上泛化能力差。这些局限性突显了需要一种稳健、可解释且可重复的标记基因发现框架。

已有研究表明，基因贡献分数能够定量地捕捉每个基因对模型预测的影响，揭示了具有生物学意义的特征，如组织特异性基因和癌症生物标志物。然而，最初为计算机视觉领域开发的可解释性方法在生物数据上往往表现出较差的可重复性，这是由于神经网络训练的随机性以及基因表达分布的复杂性所致。为了解决这个问题，引入了一种模型聚合策略，该策略能够在多个独立训练的模型中稳定贡献分数。

基于这些发现，Zhang等人开发了 scMarkerGene（图1，https://scmarkergene.zhaopage.com），一个用于细胞类型特异性标记基因发现的可解释神经网络框架。scMarkerGene 聚合多个多层感知器的贡献分数以减少方差并增强鲁棒性，生成一个细胞类型-基因贡献分数矩阵，量化每个基因在区分细胞类型中的相对重要性。候选基因最初根据其聚合贡献分数进行选择，然后使用一种新引入的“标记分数”指标重新排序，该指标量化细胞类型的特异性。这种两步策略产生了高度特异的标记基因，增强了稳定性和可重复性，并确保了其在不同规模数据集（包括高稀疏性或 dropout 率的数据集）中的适用性。通过结合可解释性和集成稳定性，scMarkerGene 为 scRNA-seq 分析中的标记基因发现提供了一个灵活且具有生物学意义的解决方案。

图1 scMarkerGene 工作流程。在步骤 1 中，输入的 scRNA-seq 表达矩阵被随机分割为训练集和验证集（9:1），并用于训练一个由细胞类型注释监督的多层感知器分类器。训练过程由验证准确率指导，并使用 Optuna 迭代优化超参数。一旦确定最优超参数集，将应用集成学习进一步生成更稳健的归因分数矩阵。在步骤 2 中，选择贡献分数最高的前 N 个基因（用户定义）作为每种细胞类型的候选标记基因集。然后通过计算标记分数对这些基因列表进行重新排序，从而得到最终的标记基因列表

参考文献

[1] Zhang J, Kou SH, Zhao J, Li X, Zhao Y. scMarkerGene: an interpretable neural network framework for cell-type-specific marker gene discovery. Brief Bioinform. 2026 May 4;27(3):bbag223. https://doi.org/10.1093/bib/bbag223

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC