||
GeneSNAKE:模拟基因调控网络和扰动诱导表达数据
理解基因如何相互作用和相互调控一直是系统生物学中的关键挑战之一。研究这一问题的基本方法之一是通过调控网络(GRN)。然而,GRN 推断领域仍然面临许多挑战。例如基因调控的复杂性、表达数据的高噪声水平,以及大多数真正的调控相互作用未知使得任何发现都难以验证。考虑到这些挑战,大量工具已被开发用于解决基因调控网络推断(GRNI)问题,采用多种统计和机器学习方法,重点关注不同类型的数据和捕获调控连接的实验方法。因此,大量具有略微不同侧重点的方法,需要有效的工具来评估推理方法。为此,需要与已知 GRN 相对应的数据,这些数据来自处于相似条件和细胞周期阶段但来自不同实验条件和设置中的细胞。这种方法的一个关键问题在于实验验证的 GRN 覆盖范围有限——例如,TRRUST 中的人类 GRN 仅限于 800 个转录因子中的 8,444 个调控相互作用。由于需要大量实验来确定确切的底层 GRN 以及获取有意义的比较信息的数据,因此目前无法获得已知 GRN 的数据来评估 GRNI 方法。这种情况经常反映在基准测试论文中,其中在真实数据上测试的方法的正确性往往非常低,以至于常常无法与随机性能区分开来。由于这个原因,GRN 领域传统上依赖于合成数据来开发和评估方法。
对合成数据的需求催生了一系列流行的基因表达模拟工具。对于模拟器而言,最流行的选项是由 Shaffter 等人于 2011 年发布的 GeneNetWeaver(GNW)工具。然而,无论是早期的还是后来的模拟器都致力于解决 GRN 数据缺乏的问题。虽然这些工具在执行任务时通常表现良好,但它们往往过于专注于数据生成的一个单一问题。例如,GNW 非常注重选择一个生物学上真实的 GRN 来生成数据。然而,这以牺牲对数据属性和实验设计非常有限控制权为代价。GeneSPIDER 工具允许用户在生成数据时控制噪声水平和条件数,但只能模拟稳态数据。另一个例子是 Pratapa 等人开发的 BoolODE 模型,该模型用于根据给定网络(GRN)模拟单细胞基因表达数据,但它没有为用户提供生成 GRN 的内置功能,并且仅限于使用布尔网络(GRN)。虽然这种专业化不一定负面,但它确实限制了该方法的应用范围,因为 GRN 领域仍然没有就 GRNI 最重要的属性达成共识。在 GNW 的情况下,敲低扰动被限制在固定的强度 0.5,而对于 BoolODE,无法指定任何扰动设计。 这些缺点在使用时对测试 GRNI 方法造成了极大的局限性,因为并非所有生物学实验都遵循相似的设计或扰动程度。另一个工具 SERGIO允许灵活的扰动设计和噪声建模,但只能模拟具有有向无环图拓扑结构的网络数据。这种网络拓扑虽然计算上易于处理,但已被证明在生物学上并不真实,因为多个基序和反馈回路在真实的 GRN中存在并发挥着关键作用。这些方法中的大多数还缺乏生成 GRN 的能力,这意味着它们只有在用户已经准备好合适的 GRN 模型时才能使用,尤其是最近专注于单细胞数据的方法,如 BoolODE、SERGIO和 scMultiSim。对于一些模拟器,应用噪声也存在限制,通常仅限于单一噪声模型,且噪声水平控制有限或无控制。鉴于噪声假设很少适用于真实数据集,灵活的噪声建模非常重要。最后,许多模拟器的一个反复出现的问题是软件难以获取,原因可能是缺乏文档、代码不可用,或者模拟器是用生物信息学中很少使用的语言编写的。这对于正在开发推理工具或研究调控网络的团队来说,可能会使其使用模拟器受到阻碍,甚至完全阻止其使用。
最近,Hillerton等人介绍了 GeneSNAKE(图1,https://bitbucket.org/sonnhammergrni/genesnake/),一个用于生成遵循 GRN 模型中指定动态的合成数据的 Python 包。GeneSNAKE 基于之前依赖常用 ODE 模型的工作,但提供了进一步的功能,旨在改进 GRN 生成、实验设计和动态用户定义数据属性。为了解决之前方法的弱点,重点放在了确保生物学真实性和灵活性之间的平衡上。这既通过创建能够生成生物学可行的 GRN 和表达数据的函数来保证,也通过允许用户修改大多数参数来精细控制生成过程。此外,为了在扰动系统方面实现稳健和多样的实验设计,GeneSNAKE 提供了一系列预定义的扰动设计,可用于生成数据。GNW 仅允许在敲低(50%)和敲除(100%)时以固定强度进行扰动。为了最大程度的灵活性,GeneSNAKE 允许用户为每个基因选择从 100%敲低到无限过表达的任何扰动强度,以模拟任何实验设计的数据。最后,为了提供尽可能多的灵活性,GeneSNAKE 包含多种噪声模型,这些模型能够捕捉数据中的生物学相关噪声,并允许用户自定义噪声程度,从而可以近似各种实验条件。
图1 GeneSNAKE 工作流程。GeneSNAKE 可以生成调控网络,并从这些网络中构建一个常微分方程(ODE)系统,该系统用于根据多种可能的扰动设计生成时间序列和稳态基因表达数据。生成的调控网络和模拟数据将输入到一个基准测试模块中,用于比较从数据中推断出的调控网络与用于生成该数据的调控网络
参考文献
[1] Thomas Hillerton, Anton Björk, Nils Lundqvist, Erik K Zhivkoplias, Mateusz Garbulowski, Erik L L Sonnhammer, GeneSNAKE: A Python package for simulation of gene regulatory networks and perturbation-induced expression data, Bioinformatics Advances, 2026;, vbag039, https://doi.org/10.1093/bioadv/vbag039
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-16 02:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社