||
ISN-tractor:快速和可扩展识别具有生物学意义的个体特异性网络
个体特异性网络(ISN)是组学数据的一种数据分析方法,可捕获种群中每个个体中生物实体(如基因)之间的独特关系模式。它们提供了对样本异质性和个性的详细了解,提供了优于传统分析方法的优势,因此它们可以为分层医学提供新的机会。例如,ISN可以全面了解基因等生物实体之间的样本内关系,与传统方法相比,可以更全面地了解复杂的生物系统和疾病。
ISN已成功应用于转录组学、代谢组学和单细胞数据分析。关于COVID-19的研究强调了ISN在理解个体变异性和指导个性化治疗方法方面的重要性。一些ISN构建方法使用基于微扰的方法来估计单个样本对网络动力学的影响,而其他方法则采用基于密度的方法来评估相互作用的重要性,但仅限于二值(0-1)边。
无论采用何种具体方法,由于在密集连接的生物网络上计算ISN的计算负担,所有这些方法在适用于大型组学数据集方面都面临严重的限制。现有的ISN构建方法,如LionessR,由于计算时间和内存的限制,确实仅限于计算包含少于2000个基因的ISN,从而阻碍了对当前生物数据集的生物网络扰动的全面全局分析。
为了解决这些限制并将ISN的适用性扩展到大型多组学数据集的分析,Giada等人引入了ISN-tractor(图1),这是一个基于pytorch的Python库,它克服了传统ISN构建方法的可扩展性问题。相对于现有的方法,ISN-tractor在实现和概念算法改进方面带来了四个主要的创新。
就实现而言,ISN-tractor允许在CPU和GPU上并行化ISN计算,从而显著提高速度。其次,它是目前唯一可以从任何组学数据源构建ISN的工具,包括基因表达、蛋白质组学和基因分型阵列。
在概念改进方面,Giada等人对传统的基于微扰的ISN计算提出了两个主要的算法改进。首先,ISN-tractor可以通过构建具有反映现有生物网络(如人类交互组或任何其他用户定义的基因-基因或蛋白质-蛋白质相互作用网络)的底层图表示的稀疏ISN来大幅减少所需的计算资源。将ISN权重的推断限制在基于知识的小世界生物网络中,而不是传统的密集的ISN图,大大减少了所需的计算量,提高了ISN-tractor的速度和可扩展性。其次,还提出了对Pearson相关性计算的算法改进,利用基于微扰的ISN计算的迭代特性来减少所需操作的冗余,将计算复杂度从O(Np2)降低到O(p2),其中N是样本数量,p是ISN中的节点数量,从而导致ISN计算的显着加速(图1)。
图1 A显示了ISN-tractor和LionessR之间的时间和内存使用比较。ISN-tractor在两个基准测试中都优于LionessR。B为ISN-tractor计算的MFS好/差骨肉瘤患者的曲线,分别为绿色和红色。重叠部分用黄色突出显示。C显示了来自HapMap数据集的不同人群的个体的基于SNP阵列的ISN获得的PCA。
ISN-tractor代码可以通过https://github.com/GiadaLalli/ISN-tractor和https://pypi.org/project/isn-tractor/中获取。
参考文献
[1] Giada Lalli, Zuqi Li, Federico Melograna et al. ISN-tractor: a python library for the fast and scalable computation of biologically meaningful Individual-Specific Networks, 08 March 2024, PREPRINT (Version 1) available at Research Square [https://doi.org/10.21203/rs.3.rs-3991527/v1]
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 06:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社