zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

phylobar:组学研究的多分辨率条形图的R包

已有 1334 次阅读 2025-12-9 09:51 |个人分类:科普|系统分类:科普集锦

phylobar:组学研究的多分辨率条形图的R 

堆叠条形图被广泛用于可视化微生物群落结构。这些图表将每个条形——代表单个样本——分成不同颜色的部分。颜色表示分类学类别;高度反映组频率。这为理解数据集中主要分类学组提供了有用的探索性概览。该视图还支持跨样本群落结构的比较,尤其是在样本按有意义的方式排序时——例如,按时间或样本相似性排序。这些图表推动了微生物组文献中的生物学发现。例如,它们帮助将样本分组为群落状态类型,突出非健康样本间的异质性,并阐明对环境干预的反应。现在已有几个 R 包可用于生成这些图表。它们可以由群落组成矩阵生成,或直接从微生物组特定数据结构生成,如 phyloseq TreeSummarizedExperiment对象导出的数据结构。 

堆叠条形图使用颜色来图形化编码分类学类别。这带来一个基本约束——当颜色调色板增长时,区分度变得越来越难以辨别。研究人员通常采用两种方法之一来解决这个问题:仅可视化高级分类学类别,或对丰富类群显示低级类别并将稀有类群归入“其他”类别中。然而,一些广泛使用的软件包在其文档中也展示了这个问题。qiime2 查看器在一个条形图中使用了 200 种颜色并且 MicrobiomeStat 中的示例使用了,这些调色板使得图表极其难以使用。 

最近,StackbarExtend 包通过为相关的分类学类别分配相似颜色解决了这个问题。这样,颜色表示分类学分配,同时确保更广泛的类别仍然可区分。最近,Kuo等人也使用分类学来指导堆叠条形图。然而,phylobar 不是使用颜色渐变,而是使用交互性。具体来说,phylobar 利用了层次结构和焦点加上下文原则,允许用户折叠和展开不同分辨率的层次结构,并通过鼠标悬停在不同的子树上来绘制条形图。因此,用户可以在最终确定可视化之前,交互式地测试不同的调色板,并识别具有有趣变化的分类学组。此外,这种方法允许直接比较多个分类学分辨率的级别,因为大型和小型子树可以同时绘制。 

phylobar 适用于其他分层结构组学数据的组成可视化。这包括单细胞数据的伪批量分析,因为细胞类型可以在不同分辨率级别上组织成嵌套类别。除了初始探索性分析,phylobar 还支持建模后的探索。例如,当模型识别出差异丰度的分类单元时,相同的交互式条形图可以用来可视化这些分类单元在样本和组间的分布和变异,为模型推导的发现提供清晰的样本级视图。这种方法保留了原始堆叠条形图的优势,允许整个数据集的概览和跨分类群比较。但现在观众可以交互式浏览分类群(包括稀有的分类群),不再需要接受静态的粗略或预定义类别。 

包功能概览

phylobar 包中的主要可视化函数是 phylobar。该函数有两个必需的输入:(1)一个样本在行、分类群在列的丰度数据矩阵,以及(2)一个定义分类等级关系的系统发育结构。系统发育树的叶节点必须与样本丰度矩阵的列(分类群)名称相匹配。叶节点是树层次结构中的最低级别,代表最精细的分类分辨率级别。样本丰度不必总和为 1,用户可以提供非组成性标准化给 phylobar,从而生成堆叠条形图,其中条形的高度不一定相等。phylobar 需要一个代表树的系统发育对象。考虑到层次信息通常存在于结构较少的格式中,如分类表,该包包含一个函数(分类到树),将这些格式转换为所需的系统发育结构。请注意,生成的树不必是二叉树;也就是说,每个内部节点不限于只有两个子节点。 

phylobar 包含两个面板(图 1a)。左侧面板展示了一个按树状结构绘制的分类学层次结构。右侧面板展示了一个堆叠条形图,其中每个样本条形图内的矩形对应于树的一个叶节点。样本可以按层次聚类或按输入数据矩阵的行进行排序。后者允许用户根据预定义特征(如时间顺序、实验组或其他相关研究因素)重新排序样本。 

image.png           

1 (a) phylobar 的显示和交互概览。点击或悬停在树节点和柱状图组成上有助于跨物种进行比较。搜索框支持查找单个物种。(b) 高级概览确认了 Susin 等人的 HFHS 干预下 Bacteroidia Firmicutes 的变化。(c) 折叠无关的子树将视图聚焦于这两个组。搜索乳杆菌科(Lactobacillaceae)确认其与 HFHS 的关联,悬停在柱状图上显示 HFHS 组中 OTU 6 的丰度升高。d. 免疫细胞类型层次结构结合了 COVID-19 严重程度免疫因素研究中细胞类型组成。e. 悬停在 T 细胞亚型节点上,将(d)面板中的紫色堆叠柱状图部分替换为与 CD8 T 淋巴细胞和γδ亚型相关的颜色 

在节点附近悬停会将关联的子树用用户提供的调色板着色,并在堆叠条形图中突出显示关联的叶子。按下 Control 键会固定当前着色的子树,并添加新的颜色进行着色。颜色可以添加直到初始调色板用尽。默认情况下,初始调色板有 6 种颜色。一旦调色板用尽,Control 会循环使用之前用过的颜色。或者,数字键可以选择调色板中的特定颜色。在着色过程中,颜色图例会交互式更新以显示每个突出显示的子树的根标签。这种树着色策略使得能够比较数据中所有样本中分类群组的丰度,其中一些可能稀有或处于不同的分类分辨率级别。 

大型树受益于修剪有限兴趣的分类子群。为此,用户可以点击一个节点来折叠其所有后代。折叠的节点会以更粗的边框显示,以指示隐藏的子树。整个树布局会重新绘制,以利用新释放的空间。当子树被折叠时,堆叠条形图中的相关叶节点会合并成一个矩形,对应整个子树。如果一个颜色仅存在于折叠子树的后代中,则该颜色会从调色板中移除。点击折叠的子树会将其展开到之前的状态。 

将鼠标悬停在堆叠条形图中的条形上会放大其样本名称。当条形紧密排列时,标签可以选择在样本被悬停之前隐藏。类似地,当数据集包含许多样本时,绘制所有样本变得不切实际。在这种情况下该软件包可以从数据集派生的层次聚类中选择代表,堆叠条形图将显示每个聚类的代表。 

总而言之,这种交互性支持在子树之间高效比较分类学类别。可视化外观可定制,用户可以修改调色板、字体大小和组件尺寸。标签可以直接放置在子树上,而不是在单独的图例中。如果分析师找到一个有用的视图,那么按下 Esc 键会冻结视图以便导出为可缩放矢量图形(SVG)文件。再次按下 Esc 键会恢复交互。虽然简单,但 phylobar 支持在不同分辨率级别上探索微生物群落结构,即使在菌株水平变异时也能保留差异。 

方法/实现

phylobar 是一个使用 D3 JavaScript 库构建可视化的 R 包。D3 JavaScript 数据数组转换为图形布局坐标,并提供文档对象模型(DOM)操作方法。phylobar 分别使用 d3.hierarchy d3.stack 进行树形和堆叠条形图的可视化。生成的层次布局包括枚举子节点、后代节点和叶节点的操作方法,支持子树绘制和折叠。树节点周围的 Delaunay 三角剖分在光标在节点邻域间移动时触发鼠标悬停事件,实现比直接节点操作更平滑的交互。针对鼠标移动和点击,D3 操作 DOM 以改变子树和条形图的颜色和分辨率。DOM 在原地修改,无需重新渲染整个视图。例如,悬停子树时,DOM 元素中的填充属性会更新,但不会重新结构化。这确保了对用户输入的平滑响应,是浏览器可视化的一项关键优势。一个独立的 JavaScript phylobar-js 封装了核心的数据操作和可视化函数,可在 NPM上获取。这个软件包导出可重用的组件,用于构建交互式层次结构可视化,包括用于交互式折叠和展开树的功能、跨层次标签搜索字符串匹配以及检测节点邻域中的鼠标悬停事件。 

htmlwidgets R 软件包连接了 phylobar JavaScript 实现和 R 接口。这个软件包将 R 矩阵和列表转换为 JavaScript 数组和对象。htmlwidgets 还创建了一个用于 D3 可视化的 SVG 画布。这个画布可以嵌入到 Quarto Rmarkdown笔记本中,每个笔记本可以包含多个可视化。视图也可以导出为可缩放矢量图形文件,允许在 Illustrator Inkscape 等矢量图形软件中进行自定义(例如,字体家族和边缘描边类型)。 

结果示例 1:高脂肪高糖饮食与肠道微生物组

肠道微生物组已知会受到高脂肪、高糖(HFHS)饮食的重塑。Susin 等人首次分析了 HFHS 小鼠模型,使用由莱·考在昆士兰大学戴亚米坦那研究所采集的样本,以表征饮食驱动的微生物组效应。他们随机将 47 C57BL/6 雌性小鼠分为 HFHS 组和对照组,并在第 0 天、第 1 天收集粪便样本。使用 phylobar 重新分析了 Kodikara 等人预处理的 16S rRNA 测序数据。这些数据是使用 Illumina MiSeq 生成的,分类学表示使用 QIIME 1.9.0 确定。为了专注于饮食干预的长期影响,筛选出第 7 天的样本。在堆叠条形图中,将所有对照组和 HFHS 组样本分别放置在左侧和右侧。在两个治疗组中,对群落组成向量之间的欧几里得距离应用完全链接层次聚类,并根据结果树上的叶顺序对样本进行排序。首先检查是否观察到 Bacteroides Firmicutes 比率的影响,该比率之前已被发现与 HFHS 饮食相关。图 1b 显示了在悬停在 Bacteroida 纲和 Firmicutes 门上时的堆叠条形图。与早期研究一致,Bacteroidia 在对照组样本中更丰富,而 Firmicutes HFHS 条件下升高。接下来,询问是否可以将这一观察结果分解为更精细的、在更狭窄分类群中的效应。 1c 显示了在突出显示特定菌株 OTU 6 并搜索乳杆菌科(均属于厚壁菌门)后得到的可视化结果。与 Bacteroidia 和厚壁菌门无关的子树已被折叠。与之前的观察结果一致,在这两种情况下的丰度均随 HFHS 条件增加,但变化方式具有本质区别。OTU 6 在除少数对照样本外均不存在,但在 HFHS 群落中是丰度最高的类群之一。相比之下,乳杆菌科在大多数对照样本中存在,但丰度低于 HFHS 条件。在这个例子中,三种交互形式——浏览、排序和搜索——均被证明重要。交互性使得跨多个分类分辨率水平比较样本变得简单,并有助于避免静态替代方案所需的聚合。这鼓励多分辨率探索,并有助于生成精确且具有生物学意义的假设。 

示例 2:轻度至重度 COVID-19 患者免疫细胞类型组成

除了微生物组数据,还可以使用 phylobar 来可视化其他类型的组成。们将 phylobar 应用于 Su 等人的单细胞 RNA 测序数据集,以研究免疫细胞类型组成在轻度、中度和重度 COVID-19 中的变化。输入数据是 120 COVID-19 患者血液样本中免疫细胞类型的比例。首先根据疾病严重程度对患者进行分组,然后按层次聚类排序,以便每个严重程度组内细胞类型组成相似的患者的位置更加接近。手动定义了一个代表免疫细胞层次结构的细胞类型树。 

基于 phylobar 可视化,观察到 T 细胞和单核细胞构成了患者样本中主要的细胞群体。还观察到,在中等和重症 COVID-19 患者中,单核细胞总体增加,而 NK 细胞和 T 细胞减少(图 1d),尤其是 CD8 T 细胞。这些变化在 Su 等人的研究中也得到了强调。phylobar 揭示的另一个特征,在 Su 等人的研究中并未描述,那就是γδ(在细胞类型树中缩写为 gdT 细胞仅在较轻的 COVID-19 患者中出现(图 1e)。这一发现与一些较新的研究相呼应,这些研究提出γδ T 细胞可能在免疫应答中对抗致病性 SARS-Cov-2 病毒发挥重要作用。 

参考文献

[1] Megan Kuo, Kim-Anh Lê Cao, Saritha Kodikara, Jiadong Mao, Kris Sankaran. phylobar: an R package for multiresolution compositional barplots in omics studies  bioRxiv 2025.11.05.686662; doi: https://doi.org/10.1101/2025.11.05.686662 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1513548.html

上一篇:SCALD:通过循环因果结构学习推理生物调控网络
下一篇:HMFGraph:恢复生物网络的贝叶斯新方法
收藏 IP: 112.116.155.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-13 14:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部