博文

多模态学习使基于聊天的单细胞数据探索成为可能

已有 2455 次阅读 2026-1-5 09:52 |个人分类:科普|系统分类:科普集锦

多模态学习使基于聊天的单细胞数据探索成为可能

基因表达谱分析被广泛用于细胞和组织的表征。全 RNA 测序（RNA-seq）通过简单且经济高效的检测方法，提供了对细胞状态和生物功能的详细评估。此外，单细胞 RNA 测序（scRNA-seq）使研究人员能够解析组织的细胞组成和生物异质性，以及器官和疾病。大规模 scRNA-seq 也是人类细胞图谱的核心，及其创建人体所有细胞类型参考图谱的使命。

一个典型的 scRNA-seq 数据集可以用一个包含约 20,000 个基因和数千或数百万个单细胞的计数矩阵来表示分析和解释这类数据集是复杂的任务，需要生物信息学技能和特定应用领域的生物学专业知识。为了促进 scRNA-seq 数据分析，已经开发了用于数据可视化、细胞聚类、细胞类型注释、差异表达和基因集分析等一系列任务的软件工具。此外，基于深度学习的“单细胞基础模型”（scFMs）已在大型 scRNA-seq 数据集上进行训练，有望超越专业工具，支持一系列未明确优化的分析任务。

最近，Schaefer等人展示了使用自然语言进行 scRNA-seq 数据探索，允许用户用英语查询细胞，无需遵循任何特定的格式或语法。CellWhisperer框架（图1）支持自由文本搜索（例如“显示肠道中驻留的 T 细胞”），并能回答关于细胞的各种问题（例如“这些选定的细胞是什么？”、“这些细胞中哪些基因高度表达？”、“KLRD1 在自然杀伤（NK）细胞中的作用是什么？”）。该模型的回答基于选定的 scRNA-seq 数据和大型语言模型（LLM）的生物学知识相结合，从而得出诸如“选定的细胞似乎是 CD16 NK 细胞，它们是 NK 细胞的一个亚群，在先天性免疫反应中起着至关重要的作用”、“这些细胞中高度表达的基因包括 NKG7、KLRD1、GNLY、GZMA、PRF1”、“KLRD1（CD94）是一种受体，在 NK 细胞活化和细胞毒性中发挥作用。它能够识别靶细胞上的 MHC I 类分子，并触发 NK 细胞介导的细胞毒性”的答案。

图1 CellWhisperer 多模态 AI 的自然语言概述转录组数据分析。a, CellWhisperer 训练数据集生成（左侧）、模型训练与推理（中间）以及 scRNA-seq 数据分析应用（右侧）的概念框架。b, GEO 数据库中人类转录组的 CellWhisperer 嵌入的 UMAP 可视化。聚类使用 Leiden 算法计算，CellWhisperer 标注的数据集可在项目网站（https://cellwhisperer.bocklab.org/geo）上进行交互式分析。c，CellWhisperer 对自由文本查询词“感染”的评分投影在 b 中转录组嵌入的 UMAP 上。d，检索由 CellWhisperer 生成的聚类标签选择的转录组的样本元数据

CellWhisperer 通过两个相互交织的人工智能（AI）模型实现这一功能。首先，CellWhisperer 嵌入模型通过多模态对比学习整合 RNA 表型及其元数据衍生文本注释，创建转录组和文本的联合多模态嵌入。CellWhisperer 的训练数据包含超过一百万个转录组及其自然语言描述，由 AI 辅助从两个大型数据库：基因表达综合数据库（GEO）和 CELLxGENE中整理。其次，CellWhisperer 聊天模型适配开放权重 LLM，在考虑用户提供的转录组特征作为多模态输入的同时，回答关于细胞状态的自由文本问题。结合这两个模型，CellWhisperer 实现了基于聊天的 scRNA-seq 数据交互式探索，已将其集成到广泛使用的 CELLxGENE 探索器中。CellWhisperer 软件、模型、训练数据和源代码可在网上获取（https://cellwhisperer.bocklab.org）。

总之，CellWhisperer 作为一个概念验证，证明自然语言可以作为与 scRNA-seq 数据集交互的直观渠道。它由转录组和文本的多模态 AI 模型，结合集成聊天模型的生物学知识所驱动。可以设想通过自然语言进行数据查询将成为未来基于 AI 的生物信息学研究助手的关键要素。

参考文献

[1] Schaefer M, Peneder P, Malzl D, Lombardo SD, Peycheva M, Burton J, Hakobyan A, Sharma V, Krausgruber T, Sin C, Menche J, Tomazou EM, Bock C. Multimodal learning enables chat-based exploration of single-cell data. Nat Biotechnol. 2025 Nov 11. doi: https://doi.org/10.1038/s41587-025-02857-9.

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC