zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

多模态学习使基于聊天的单细胞数据探索成为可能

已有 704 次阅读 2026-1-5 09:52 |个人分类:科普|系统分类:科普集锦

多模态学习使基于聊天的单细胞数据探索成为可能 

基因表达谱分析被广泛用于细胞和组织的表征。全 RNA 测序(RNA-seq)通过简单且经济高效的检测方法,提供了对细胞状态和生物功能的详细评估。此外,单细胞 RNA 测序(scRNA-seq)使研究人员能够解析组织的细胞组成和生物异质性,以及器官和疾病。大规模 scRNA-seq 也是人类细胞图谱的核心,及其创建人体所有细胞类型参考图谱的使命。 

一个典型的 scRNA-seq 数据集可以用一个包含约 20,000 个基因和数千或数百万个单细胞的计数矩阵来表示分析和解释这类数据集是复杂的任务,需要生物信息学技能和特定应用领域的生物学专业知识。为了促进 scRNA-seq 数据分析,已经开发了用于数据可视化、细胞聚类、细胞类型注释、差异表达和基因集分析等一系列任务的软件工具。此外,基于深度学习的单细胞基础模型scFMs)已在大型 scRNA-seq 数据集上进行训练,有望超越专业工具,支持一系列未明确优化的分析任务。 

最近,Schaefer等人展示了使用自然语言进行 scRNA-seq 数据探索,允许用户用英语查询细胞,无需遵循任何特定的格式或语法。CellWhisperer框架(图1)支持自由文本搜索(例如“显示肠道中驻留的 T 细胞),并能回答关于细胞的各种问题(例如这些选定的细胞是什么?这些细胞中哪些基因高度表达?“KLRD1 在自然杀伤(NK)细胞中的作用是什么?)。该模型的回答基于选定的 scRNA-seq 数据和大型语言模型(LLM)的生物学知识相结合,从而得出诸如选定的细胞似乎是 CD16 NK 细胞,它们是 NK 细胞的一个亚群,在先天性免疫反应中起着至关重要的作用这些细胞中高度表达的基因包括 NKG7KLRD1GNLYGZMAPRF1”“KLRD1CD94)是一种受体,在 NK 细胞活化和细胞毒性中发挥作用。它能够识别靶细胞上的 MHC I 类分子,并触发 NK 细胞介导的细胞毒性的答案。 

image.png

1 CellWhisperer 多模态 AI 的自然语言概述转录组数据分析。a, CellWhisperer 训练数据集生成(左侧)、模型训练与推理(中间)以及 scRNA-seq 数据分析应用(右侧)的概念框架。b, GEO 数据库中人类转录组的 CellWhisperer 嵌入的 UMAP 可视化。聚类使用 Leiden 算法计算,CellWhisperer 标注的数据集可在项目网站(https://cellwhisperer.bocklab.org/geo)上进行交互式分析。cCellWhisperer 对自由文本查询词感染的评分投影在 b 中转录组嵌入的 UMAP 上。d,检索由 CellWhisperer 生成的聚类标签选择的转录组的样本元数据 

CellWhisperer 通过两个相互交织的人工智能(AI)模型实现这一功能。首先,CellWhisperer 嵌入模型通过多模态对比学习整合 RNA 表型及其元数据衍生文本注释,创建转录组和文本的联合多模态嵌入。CellWhisperer 的训练数据包含超过一百万个转录组及其自然语言描述,由 AI 辅助从两个大型数据库:基因表达综合数据库(GEO)和 CELLxGENE中整理。其次,CellWhisperer 聊天模型适配开放权重 LLM,在考虑用户提供的转录组特征作为多模态输入的同时,回答关于细胞状态的自由文本问题。结合这两个模型,CellWhisperer 实现了基于聊天的 scRNA-seq 数据交互式探索,已将其集成到广泛使用的 CELLxGENE 探索器中。CellWhisperer 软件、模型、训练数据和源代码可在网上获取(https://cellwhisperer.bocklab.org)。 

总之,CellWhisperer 作为一个概念验证,证明自然语言可以作为与 scRNA-seq 数据集交互的直观渠道。它由转录组和文本的多模态 AI 模型,结合集成聊天模型的生物学知识所驱动。可以设想通过自然语言进行数据查询将成为未来基于 AI 的生物信息学研究助手的关键要素。 

参考文献

[1] Schaefer M, Peneder P, Malzl D, Lombardo SD, Peycheva M, Burton J, Hakobyan A, Sharma V, Krausgruber T, Sin C, Menche J, Tomazou EM, Bock C. Multimodal learning enables chat-based exploration of single-cell data. Nat Biotechnol. 2025 Nov 11. doi: https://doi.org/10.1038/s41587-025-02857-9. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1517171.html

上一篇:单细胞测序揭示乳腺癌异质性并确认TCP1作为乳腺癌治疗靶点
下一篇:geneRNIB:基因调控网络推理的动态基准
收藏 IP: 39.144.146.*| 热度|

1 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-1-7 05:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部