||
使用Bioconductor协助空间转录组分析
空间转录组学技术在生物医学研究中得到广泛应用,包括癌症生物学、神经科学、免疫学和发育生物学等领域。这些技术能够对组织切片中的空间分辨基因表达进行定量分析,为组织结构和细胞间相互作用提供有力信息。目前有多种协议和技术可供选择,它们在空间分辨率、可检测基因数量以及灵敏度和特异性方面存在差异。空间转录组学技术可分为基于测序的技术和基于成像的技术。基于测序的技术通过在条形码空间位置处对非靶向或转录组规模的转录本进行测序读数来捕获 RNA,而基于成像的技术则利用荧光读数在亚细胞空间分辨率下识别单个 RNA 分子,通常针对特定转录本集,并可以聚集成细胞分辨率。其他模态的技术,包括空间蛋白质组学和空间多组学,为细胞和组织内的空间分辨分子和组织学特征提供了进一步视角。
空间转录组学数据的计算分析包含一系列复杂的分析步骤,包括预处理、质量控制、中间处理和下游分析,这些步骤被连接成工作流。每个分析步骤都有多种可用方法。对于数据分析师来说,一个关键任务是根据数据类型和实验背景为每个步骤选择合适的计算方法,并以模块化的方式连接不同方法的输入和输出,以构建完整的工作流。大多数方法都作为 R 或 Python 软件包实现。标准化的数据结构,如 SpatialExperiment(R/Bioconductor)、AnnData和 SpatialData(Python),以及 Seurat和 Giotto Suite框架(R)中的结构,促进了方法之间的连接。扩展提供了针对特定技术数据类型的额外能力,或用于在 R 和 Python 之间转换数据结构。预处理步骤通常是平台特定的,取决于原始数据的格式(例如读取比对或细胞分割)。 预处理后,数据通常被总结为基因表达计数表,在空间位置层面(例如点、珠子或区间)或单个细胞层面进行聚合。后续分析步骤以基因表达计数表和空间信息为起点,例如进行质量控制、特征选择、降维、聚类和差异检验等。其中许多分析步骤借鉴了单细胞 RNA 测序分析流程,并根据空间数据的特性进行了调整,如考虑观测值之间的距离以及每个空间位置的细胞数量。各种下游分析,例如具有空间感知能力的细胞类型组成和相互作用分析,也适用于空间蛋白质组学和其它空间组学数据。
Bioconductor 是一个长期存在的社区项目,旨在开发和共享基于 R 的开源软件,用于高通量生物数据分析。Bioconductor 项目始于 2001 年,现已发展包含超过 2300 个软件包(截至 2025 年 10 月发布)。软件包由世界各地众多研究团队贡献,而整体项目和核心基础设施由 Bioconductor 核心团队协调和维护,该团队在社区、技术和科学顾问委员会的指导下运作。Bioconductor 组件主要作为 R 包开发,同时通过扩展促进与 Python 的互操作性。由于软件包和基础设施由不同研究团队开发,因此可以包含最新的尖端方法和工具,从而为最终用户提供丰富、灵活和模块化的分析框架。Bioconductor 软件包会进行持续构建测试,这会通知软件包维护者任何安装或运行时错误。值得注意的是,用户和开发者受益于文档要求、代码审查、基于社区的论坛和教育资源。基于 Bioconductor 的工作流程还可以整合来自综合 R 存档网络(CRAN)的 R 包,提供对大量实现高级统计方法(包括(广义)线性建模和空间统计、机器学习工具以及复杂的图形可视化工具)的 R 包的历史访问。
最近,Crowell等人提供了一个免费开放源代码资源(https://bioconductor.org/books/OSTA/),包括一本在线书籍,其中包含可重复使用的代码示例、数据集,以及使用 Bioconductor 进行空间转录组数据分析的讨论。章节涵盖了单个分析步骤以及扩展工作流程,使用来自几种商业可用技术的可下载数据集。该书籍托管在 Bioconductor 网站上,代码示例在多个操作系统上通过 Bioconductor 构建系统定期测试,确保可靠性、稳定性以及用户的长期能够访问。代码示例使用来自 Bioconductor 或 CRAN 的 R 包,一些章节进一步展示了与 PyPI 的 Python 包的互操作性,使用 reticulate 或 basilisk。示例中使用的数据集存储在远程位置,并可以使用伴随的 Bioconductor 包 OSTA.data中提供的函数进行下载。图 1 提供了书籍内容的示意图(在线方法中有更多细节),图 2 说明了该资源如何在 Bioconductor 以及更广泛的 R 和 Python 分析生态系统中发挥作用。

图1 Orchestrating Spatial Transcriptomics Analysis with Bioconductor (OSTA)书籍内容的示意图。OSTA 书籍由一系列章节组成,分为多个部分,包括引言和背景(灰色)、适用于测序技术(深蓝色)和成像技术(红色)的分析、平台无关的分析(紫色)、多样本分析(浅蓝色)和跨平台分析(黄色)。各个章节涵盖单个分析步骤,以及来自几种主要技术的数据集的扩展工作流程(青色)。参考单细胞 RNA 测序数据可用于测序数据的解卷积以及任何数据的(半)监督聚类;图像特征可分别使用 Napari 和 QuPath 从免疫荧光或苏木精和伊红(H&E)染色中提取。箭头指示计算数据分析工作流程的大致顺序,然而,每个步骤都有许多替代方法,并且可能需要不同的数据处理。总之,OSTA 提供了构建模块化数据分析工作流所需的组件,这些工作流需要分析师根据数据类型、实验设计等仔细选择方法以及生物学问题

图2 示意图展示了 OSTA 如何在 R 和 Python 中的 Bioconductor 及更广泛的分析框架和生态系统中适用于空间转录组学数据。数据分析生态系统包含许多开发者提供的工具,旨在实现互操作性、可扩展性和适应性,以适应生物学数据和计算方法的发展,并提供更高级别的支持基础设施。Bioconductor 提供了一套用于单细胞和空间组学数据分析的软件和数据包;项目范围内的标志性特征包括社区论坛、Bioconductor 核心团队和顾问委员会,以及自动构建测试系统。OSTA 依赖于各种用于导入和表示数据的工具,用于渲染和部署,以及能够与 Python 互操作的软件(例如数据对象转换和运行 Python 代码)。 基于 R 的框架,包括额外的独立解决方案如 Seurat和 Giotto Suite,可访问来自综合 R 存档网络(CRAN)的大量 R 包,这些包实现了高级统计方法(例如空间统计和线性建模)以及图形可视化工具,而 Python 则提供了丰富的基础设施,特别是在图像分析和基于机器学习的应用方面,以及 scverse 生态系统原生的框架如 Squidpy 。一般来说,技术供应商作为数据生成者,而用户接收数据并旨在输出研究成果;用户也可能成为开发者,进而为数据分析生态系统做出贡献,这些生态系统为用户提供所需的工具和支持,以分析他们的数据
现有的空间转录组数据分析工作流框架和教程包括 Seurat, Giotto Suite, 空间转录组博物馆, 以及 Voyager (R 语言版)和 Squidpy (Python 语言版)。本文方法的一个关键优势是,整体资源以及包含的方法和工具都是由来自多个机构和国家的研究小组开发的,从而确保包含了广泛具有代表性的最先进科学方法和分析途径。还强调 R 与 Python 的互操作性,并在几个章节中提供了示例。此外,Bioconductor 生态系统的模块化特性使用户能够轻松地调整我们的工作流程以包含新方法,而 Bioconductor 的持续构建测试确保示例保持无误,同时 Bioconductor 支持站点和社区论坛为用户提供易于访问的问题咨询渠道。本书的开发版本托管在 GitHub 上,这能够通过 GitHub Actions 工作流程进行额外的持续测试,并为用户提供提交问题、提出建议和反馈以及贡献内容的额外接口。
其他现有资源提供了单细胞 RNA 测序数据分析的代码示例、教程以及关于分析指南的讨论,并扩展到空间分辨数据,包括使用 R 语言和 Bioconductor 的 Orchestrating SingleCell Analysis with Bioconductor (OSCA)以及使用 Python 语言和 scverse 项目的单细胞最佳实践。相比之下,本书籍专注于空间分辨的组学数据,从数据类型介绍开始,并使用来自多种技术的示例数据集。这使得我们能够更详细地关注空间分辨数据的方法学问题和可用方法。对于某些分析,单细胞方法可以被重新用于提供计算效率的基线。一个限制是将代码示例限制为 Bioconductor 或 CRAN 提供的 R 包,或 PyPI 提供的 Python 包。作者们还讨论了从其他来源(例如 GitHub 或其他非包代码存储库)提供的几种关键方法,但不会将这些方法包含在可重复的代码示例中。 这项限制旨在促进长期的可访问性和维护。作者们也不提供每个分析步骤中所有可用方法的完整列表,而是专注于广泛使用的方法以及发现文档齐全、易于访问且性能优良的方法。对于希望更详细地探索文献的读者,作者们提供了基准评估论文和比较其他可用方法的综述的参考文献;相关的精选资源也列在书籍附录中。该资源旨在作为一个由社区驱动的、不断更新的文档,以涵盖新方法、数据类型和技术。
参考文献
[1] Helena L. Crowell, Yixing Dong, Ilaria Billato, Peiying Cai, Martin Emons, Samuel Gunz, Boyi Guo, Mengbo Li, Alexandru Mahmoud, Artür Manukyan, Hervé Pagès, Pratibha Panwar, Shreya Rao, Callum J. Sargeant, Lori Shepherd Kern, Marcel Ramos, Jieran Sun, Michael Totty, Vincent J. Carey, Yunshun Chen, Leonardo Collado-Torres, Shila Ghazanfar, Kasper D. Hansen, Keri Martinowich, Kristen R. Maynard, Ellis Patrick, Dario Righelli, Davide Risso, Simone Tiberi, Levi Waldron, Raphael Gottardo, Mark D. Robinson, Stephanie C. Hicks, Lukas M. Weber. Orchestrating Spatial Transcriptomics Analysis with Bioconductor, bioRxiv 2025.11.20.688607; doi: https://doi.org/10.1101/2025.11.20.688607
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-19 18:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社