||
可解释单细胞基础模型来评分基因重要性
一个基因的绝对表达水平并不是其在单个细胞中功能重要性的可靠指标。例如,关键调节因子如转录因子(TF)通常表达量较低,而高丰度基因如参与线粒体功能的基因,可能对特定的细胞功能影响有限。因此,研究人员依赖比较方法,如差异基因表达(例如,DESeq2和 GSEA)和特征评分(例如,GSVA、Scanpy 和 Seurat)来量化表达相对变化,并假设这种相对变化是功能重要性的代理指标。虽然这些方法富有洞见,但它们并非设计用来跨实验进行推广。每个研究的独特设计、细胞类型组成和技术伪影(例如测序深度或批次效应会限制潜在的对比,并使跨数据集的解释变得复杂)。为了改善这些问题,已经开发了用于标准化和数据集整合的计算方法,但这些方法无法有效地应用于成千上万的公开单细胞转录组实验。
为了实现可扩展、稳健的跨数据集分析,并更客观地衡量基因的功能重要性,Gold等人开发了 SIGnature(评估基因重要性)框架(图1,https://github.com/Genentech/SIGnature),该框架借鉴了可解释人工智能(XAI)中的归因方法,并将其应用于在单细胞 RNA 测序(scRNA-seq)数据上训练的基础模,。通常,归因量化了每个输入特征对模型预测的贡献。例如,在图像分类中,具有最高归因的像素得分负责识别一个物体,例如后院里的狗(图 1a)。将其应用于单细胞 RNA 测序基础模型(scRNA-seq FM)(图 1b)时,归因度测量每个基因对细胞在模型潜在空间中位置的影响(图 1c)。如果基础模型编码生物学功能,那么具有高归因度得分的基因反映了它们对给定细胞的功能重要性。事实上,归因度能够恢复细胞身份的关键标志物或其特化功能的调节因子,并且比标准化计数更抵抗技术伪影(图 1d)。归因度能够实现跨数据集的通用分析,因为每个细胞都是与相同的标准化的基础模型嵌入进行比较。

图1 基因重要性通过归因进行量化。a, 在图像分类,归因分数突出了模型用于最高概率预测(狗)的关键像素(黄色)。b,在单细胞 RNA 测序 FM 中,归因量化了每个基因对细胞在潜在空间中位置的重要性。归因值不一定与表达相关(例如,MALAT1 与 FOXP3)。c,基因表达变化对嵌入的影响;改变 MALAT1(低归因)影响很小而改变 FOXP3(高归因)则会导致大幅变化。d, scRNA-seq 分析中归因的关键特征。归因增强了标记基因的检测,与 log 标准化表达相比减少了技术伪影,并提高了跨研究的 NMF 和基因特征评分。e, SIGnature 搜索工作流程。预计算的归因能够快速对特征中的基因(红色框)进行细胞水平评分,使图谱数据能够揭示特征在不同细胞类型和疾病中的富集情况
通过快速查询大型 scRNA-seq 图谱中的已建立基因特征,发现新的关联,从而展示了这些归因度在生物发现和药物开发中的实用性在细胞状态、治疗和疾病之间(图 1e)。专注于 MS1 基因程序,这是一种与严重 COVID-19 和败血症不良预后相关但理解较差的髓系表型。通过使用 SIGnature 分析超过 400 项不同研究,作者们发现 MS1 特征在三种先前未关联的炎症状况中激活:噬血细胞性淋巴组织细胞增生症(HLH)、重症发热伴血小板减少综合征(SFTS)和川崎病(KD)。通过实验验证了 MS1 与 KD 的新关联,表明与败血症患者血清相似,KD 患者血清可以在体外诱导 MS1 表型。对 KD scRNA-seq 数据的进一步研究显示,MS1 细胞在静脉注射免疫球蛋白(IVIG)治疗后减少,但在体外测试中未能证实直接关联。这些发现强调了SIGnature 能够通过大规模基因集评分揭示共享的疾病机制并生成可检验的假设。
参考文献
[1] Gold, M.P., Reyes, M., Diamant, N. et al. Scoring gene importance by interpreting single-cell foundation models. Nat Biotechnol (2026). https://doi.org/10.1038/s41587-026-03112-5
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-28 04:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社