zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

可解释单细胞基础模型来评分基因重要性

已有 550 次阅读 2026-6-19 13:48 |个人分类:科普|系统分类:科普集锦

可解释单细胞基础模型来评分基因重要性 

一个基因的绝对表达水平并不是其在单个细胞中功能重要性的可靠指标。例如,关键调节因子如转录因子(TF)通常表达量较低,而高丰度基因如参与线粒体功能的基因,可能对特定的细胞功能影响有限。因此,研究人员依赖比较方法,如差异基因表达(例如,DESeq2 GSEA)和特征评分(例如,GSVAScanpy Seurat)来量化表达相对变化,并假设这种相对变化是功能重要性的代理指标。虽然这些方法富有洞见,但它们并非设计用来跨实验进行推广。每个研究的独特设计、细胞类型组成和技术伪影(例如测序深度或批次效应会限制潜在的对比,并使跨数据集的解释变得复杂)。为了改善这些问题,已经开发了用于标准化和数据集整合的计算方法,但这些方法无法有效地应用于成千上万的公开单细胞转录组实验。 

为了实现可扩展、稳健的跨数据集分析,并更客观地衡量基因的功能重要性,Gold等人开发了 SIGnature(评估基因重要性)框架(图1https://github.com/Genentech/SIGnature),该框架借鉴了可解释人工智能(XAI)中的归因方法,并将其应用于在单细胞 RNA 测序(scRNA-seq)数据上训练的基础模,。通常,归因量化了每个输入特征对模型预测的贡献。例如,在图像分类中,具有最高归因的像素得分负责识别一个物体,例如后院里的狗(图 1a)。将其应用于单细胞 RNA 测序基础模型(scRNA-seq FM)(图 1b)时,归因度测量每个基因对细胞在模型潜在空间中位置的影响(图 1c)。如果基础模型编码生物学功能,那么具有高归因度得分的基因反映了它们对给定细胞的功能重要性。事实上,归因度能够恢复细胞身份的关键标志物或其特化功能的调节因子,并且比标准化计数更抵抗技术伪影(图 1d)。归因度能够实现跨数据集的通用分析,因为每个细胞都是与相同的标准化的基础模型嵌入进行比较。 

image.png

1 基因重要性通过归因进行量化。a, 在图像分类,归因分数突出了模型用于最高概率预测(狗)的关键像素(黄色)。b,在单细胞 RNA 测序 FM 中,归因量化了每个基因对细胞在潜在空间中位置的重要性。归因值不一定与表达相关(例如,MALAT1 FOXP3)。c,基因表达变化对嵌入的影响;改变 MALAT1(低归因)影响很小而改变 FOXP3(高归因)则会导致大幅变化。d, scRNA-seq 分析中归因的关键特征。归因增强了标记基因的检测,与 log 标准化表达相比减少了技术伪影,并提高了跨研究的 NMF 和基因特征评分。e, SIGnature 搜索工作流程。预计算的归因能够快速对特征中的基因(红色框)进行细胞水平评分,使图谱数据能够揭示特征在不同细胞类型和疾病中的富集情况 

通过快速查询大型 scRNA-seq 图谱中的已建立基因特征,发现新的关联,从而展示了这些归因度在生物发现和药物开发中的实用性在细胞状态、治疗和疾病之间(图 1e)。专注于 MS1 基因程序,这是一种与严重 COVID-19 和败血症不良预后相关但理解较差的髓系表型。通过使用 SIGnature 分析超过 400 项不同研究,作者们发现 MS1 特征在三种先前未关联的炎症状况中激活:噬血细胞性淋巴组织细胞增生症(HLH)、重症发热伴血小板减少综合征(SFTS)和川崎病(KD)。通过实验验证了 MS1 KD 的新关联,表明与败血症患者血清相似,KD 患者血清可以在体外诱导 MS1 表型。对 KD scRNA-seq 数据的进一步研究显示,MS1 细胞在静脉注射免疫球蛋白(IVIG)治疗后减少,但在体外测试中未能证实直接关联。这些发现强调了SIGnature 能够通过大规模基因集评分揭示共享的疾病机制并生成可检验的假设。 

参考文献

[1] Gold, M.P., Reyes, M., Diamant, N. et al. Scoring gene importance by interpreting single-cell foundation models. Nat Biotechnol (2026). https://doi.org/10.1038/s41587-026-03112-5 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1540037.html

上一篇:miDGD:利用多模态深度生成模型从单细胞mRNA表达预测miRNA表达
下一篇:LncRCD:12种调控细胞死亡类型相关的lncRNA数据库



    
收藏 IP: 39.128.49.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-6-28 04:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部