||
组学相关性促进高效构建网络
高通量技术的进步,如DNA测序技术和液相色谱-质谱法,使捕捉人类生物学的高清快照成为可能。高通量技术成本的迅速降低,使许多人类健康状况,如传染病和免疫介导疾病以及自然环境的组学分析成为可能。这些快照包括“组学特征”的大规模高维数据集(例如,微生物物种、转录本、微生物基因、蛋白质和小分子)以及临床信息,其速度大大超过了我们从功能上描述这些特征以推断生物信息的能力。因此,为了处理从精心设计的实验中产生的大规模数据,需要适当的工具来提取生物学见解。为了利用这些数据研究生物功能,构建组学特征之间相互作用的网络是一项关键任务。该任务通常需要计算所有特征之间的相关性,由于时间复杂性和计算资源的限制,这是许多研究未满足的需求。Nima Aghaeepour及其同事在《Nature Computational Science》中介绍了CorALS,这是一种计算相关性的有效方法,可以估计每个组学特征的重要相关性,并在大型数据集中的特征之间构建网络,这使得这种昂贵的计算任务在常规计算资源下变得可行。
组学测量对于揭示影响疾病的生物过程具有很大的希望。组学测量的粒度特性允许人们分析给定系统内发生的动态。多组学数据提供了许多机会,因为它们提供了丰富的信息集来表征所述系统的组成部分(图1)。然而,这些数据存在许多挑战,包括高维、非均匀采样、小样本量、观察内的依赖结构、分层数据结构、重噪声、非高斯误差等等。因此,需要一种灵活的方法来解决这些问题。Nima Aghaeepour及其同事介绍的方法,即CorALS,使用高维组学数据集解决了相关性计算和网络构建问题。在这种方法中,组学测量越来越多地用于研究生物系统(图1a)。此外,配对组学数据集(图1b)成为常见的结果,使综合方法(图1c)能够在各种健康和环境条件下构建组学特征(图1d)之间的网络相互作用。
图1 组学数据越来越多地用于研究生物学假设。a,研究人员越来越多地使用组学数据来推断许多领域的生物学。b,组学测量被纳入健康和生物医学研究,利用高通量技术进行精细分辨率的生物测量,研究新的生物学领域。c、计算距离矩阵是生成数据驱动假设的一项简单而常见的任务,由于组学数据集的高维性,这可能具有挑战性。d,组学特征之间的距离矩阵是网络相互作用和从这种分析推断生物学的基础。
网络分析允许发现节点之间的模块或群落,其中节点可以是组学特征(如细胞、基因、微生物和代谢物),节点之间的相互作用或边缘可以是收集样本中特征之间的相关性。CorALS促进了使用通用计算资源高效构建组学交互网络,并展示了可作为用户指南的现实应用。在生物网络中发现密切相互作用的模块是从高通量数据中生成假设的重要分析步骤。例如,基于巨噬细胞转录组相关的网络分析被用于表征巨噬细胞激活状态,这是基因水平上人类免疫系统的重要功能,使用网络分析发现具有相似特征的多效基因模块。生物模块的检测有很多进展,主要依赖于基因组特征之间的相关性(或距离)。
CorALS通过提供两个关键模块,为大规模数据集的相关和网络分析提供了一种高效的计算方法:1)优化相关系数的计算(即皮尔逊和斯皮尔曼)和2)使用快速方法估计每个基因组特征的top-K相关性。第一个模块利用向量投影计算相关系数,该系数等于投影特征的内积。这使得CorALS能够准确地进行矢量化计算,比依赖原始特征的传统方法快得多。第二个模块通过只关注每个组属性的top-K相关特征来修剪网络中不必要的边缘。这种方法允许领域专家专注于基本的相关性,而不会忽略潜在的过程。此外,这种特征选择技术降低了网络的复杂性,使其更容易理解和解释。
总而言之,CorALS是一种用户友好的现成统计方法,通过只关注最重要的相关性来加快相关系数的计算和网络分析。其独特的方法和优化技术使其成为数据科学家和研究人员的宝贵工具。Nima Aghaeepour及其同事通过将CorALS应用于多组学数据集,展示了多组学特征(如微生物、转录组和免疫组)相互作用的动态是如何在出生前后发生变化的。通常,由于所需的计算资源和CorALS处理的许多组学特征,大型数据集的网络分析受到限制。无监督的方法,如仅使用相关性来构建网络的CorALS,可以通过结合组学领域知识(如组学特征有助于的路径信息)来量化相互作用权重以构建生物网络。
CorALS方法的详细介绍和基本框架可以见参考文献[2](https://www.nature.com/articles/s43588-023-00429-y)。
参考文献
[1] Rahnavard, A. Omics correlation for efficient network construction. Nat Comput Sci 3, 285–286 (2023). https://doi.org/10.1038/s43588-023-00436-z
[2] Becker, M., Nassar, H., Espinosa, C. et al. Large-scale correlation network construction for unraveling the coordination of complex biological systems. Nat Comput Sci 3, 346–359 (2023). https://doi.org/10.1038/s43588-023-00429-y
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-8 01:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社