||
WebAtlas:整合单细胞和空间转录组数据
单细胞和空间转录组学阐明了组织的互补特征。计算集成可以协同这些技术来原位解析细胞类型和转录组。然而,整合数据集的在线传播和探索仍然具有挑战性。在这里,Li等人介绍了WebAtlas管道,一个用户友好的共享和交互式导航集成的单细胞和空间转录组数据集(图1a,https://cellatlas.io/webatlas)。
多模态组织图谱数据集对在线传播和公平获取构成了两个关键挑战。首先,单细胞RNA测序(scRNA-seq)和空间转录组学数据对象通常保存在非统一的测序和成像文件格式中,这些格式在网络技术下表现不佳。其次,现有的软件平台不支持同时浏览多种集成数据模式。
为了应对这些挑战,作者们提供了1)一个新的数据获取管道,将多个单细胞和空间技术的数据集转换和统一为Zarr格式1(图1b); 2)一个基于Vitessce框架的前端web客户端,用于跨模式的基因表达和细胞类型的交互式探索和交叉查询(图1d)。WebAtlas允许生物信息学家和软件工程师构建面向公众的数据门户,也允许非技术社区成员访问组织图谱集。
在WebAtlas中,单细胞和空间数据集通过生物分子元数据(如共享的细胞类型或基因注释)连接在一起。在WebAtlas之前,使用现有的数据整合方法(如Cell2location和StabMap)进行链接,这些方法将scRNA-seq细胞类型参考映射到空间转录组学数据集,并在后者中输入未观察到的基因表达(图1a)。
WebAtlas的数据获取管道为各种技术生成的测序和成像数据对象执行提取-转换-加载步骤(图1b)。为了能够有效地在线浏览组织图谱数据集,WebAtlas使用数组分块的Zarr文件格式生成输出。scRNA-seq和空间转录组学的基因表达和细胞类型注释文件转换为AnnData-Zarr格式。将空间转录组学数据中的原始显微镜图像和细胞分割标签图像转换为OME-Zarr格式,用于多尺度可视化。其他空间转录组学数据元素(例如RNA分子或点)也存储在Zarr中。WebAtlas Zarr最初是作为一种新格式开发的,与最近发布的SpatialData格式一致,并且WebAtlas可以输出成SpatialData格式。
WebAtlas数据获取管道在Nextflow上实现,并通过定义输入数据文件和可视化参数的YAML模式进行配置。输入数据集是独立处理的,用户可以选择处理单个数据集(例如Visium),特定数据集(例如细胞分割掩码,但不是原始图像)或任何给定的集成数据集组合(例如scRNA-seq和Visium,或scRNA-seq和成像)。
为了可视化集成的数据集,WebAtlas使用了Vitessce,它提供了一个无服务器的web框架,用于多模式数据的交互式探索。目前,为Vitessce准备数据和配置文件需要编程专业知识和熟悉多种数据模型。WebAtlas自动化了这些步骤,以便跨集成数据集协调查看和查询基因和细胞类型。WebAtlas全面记录,包括常见技术的示例工作流程。作者们也提供一个自助服务网站,允许用户通过网页上传数据文件。
图1 WebAtlas管道概述。a WebAtlas集成了基于scRNA-seq、成像和测序的空间转录组学(ST)数据集,用于交互式web可视化,支持跨模式的细胞类型和基因表达交叉查询。b WebAtlas数据管道处理来自集成单细胞和空间技术的各种数据对象。(1)该管道可以从图像和/或基于测序的ST技术和单细胞测序方法(如scRNA-seq)中获取数据。(2)数据转换分为两步。首先,将数据转换为标准格式,以便更容易地处理它们。其次,对数据进行过滤、索引和连接,统一集成模式,为数据可视化做好准备。(3)数据以可伸缩的Zarr格式输出,并可选择SpatialData。(4)准备了跨模态可视化和查询共享基因和细胞类型特征所需的设置,并通过管道自动生成与Vitessce兼容的配置文件。c WebAtlas的主要功能和目标受众。d WebAtlas快照显示人类下肢scRNA-seq、ISS和Visium数据集的可视化。包括:(1)UMAP细胞类型表示,突出显示查询类型;(2)ISS组织中分段细胞的空间图;(3)带点标记面罩的Visium组织切片;(4)细胞集搜索;(5)细胞类型搜索;(6)交叉查询数据的基因搜索。e 细胞类型交叉查询快照。通过细胞类型搜索控制台选择软骨祖细胞,同时突出其在scRNA-seq中的细胞群及其在ISS和Visium数据集中的空间位置。在Visium数据上,显示了每个Visium点预测的软骨祖细胞丰度。f 基因表达交叉查询快照。通过基因搜索控制台选择软骨细胞谱系标记COL2A1,返回其在所有三种模式下的表达模式、每个细胞或Visium点绘制。g WebAtlas应用程序快照的Xenium人类乳腺癌数据集,显示原始DAPI图像、分割的细胞掩膜和RNA分子。h WebAtlas应用程序快照的MERSCOPE福尔马林固定,石蜡包埋乳腺癌数据集,显示原始显微镜图像和分割的细胞掩模
为了展示WebAtlas,作者们将其应用于一个正在开发的人类下肢组织图谱,该图谱整合了公共单细胞数据、Visium空间转录组数据和原位测序(ISS)数据集。WebAtlas实现了这些数据集的协调导航,可以很容易地交叉查询细胞类型,并将Visium数据反卷积显示的空间细胞类型位置与ISS成像获得的单细胞分辨率细胞图进行比较。还可以交叉查询基因,将ISS数据中输入的基因表达模式与Visium中的直接测量结果进行比较。
为web可视化而优化的WebAtlas Zarr文件也可以支持参考组织图谱数据集的导航。为了证明这一点,作者们将单细胞数据、Visium空间转录组数据和ISS肢体数据集的WebAtlas Zarr输出存储到BioImage archive中,并直接在WebAtlas App上进行可视化。
最后,WebAtlas是可扩展的。作者们将WebAtlas应用于Xenium(图1g)、 MERSCOPE(图1h)和Visium CytAssist数据集,以及整合scRNA-seq和seqFISH的小鼠胚胎图谱,扩展到90万个细胞和110万个RNA分子。通过WebAtlas的门户网站可以访问使用的所有数据集。
WebAtlas为整合单细胞和空间转录组学的在线探索提供了一个直观的管道,并为生物学家提供了丰富且易于访问的组织地图集。所有软件代码都已在GitHub上公开提供https://github.com/haniffalab/webatlas-pipeline。WebAtlas全面的文档、教程和示例工作流程可在https://haniffalab.github.io/webatlas-pipeline上获得。
参考文献
[1] Li T, Horsfall D, Basurto-Lozada D, Roberts K, Prete M, Lawrence JEG, He P, Tuck E, Moore J, Yoldas AK, Babalola K, Hartley M, Ghazanfar S, Teichmann SA, Haniffa M, Bayraktar OA. WebAtlas pipeline for integrated single-cell and spatial transcriptomic data. Nat Methods. 2024 Aug 19. doi: 10.1038/s41592-024-02371-x.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 00:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社