||
深度学习在基因调控网络推理中的应用综述
生物学应用的最终目标是了解感兴趣的过程,从细胞的角度来看,这意味着了解基因如何相互调控。基因调控网络(Gene Regulatory Network, GRN)是一种具有良好解释性的图形结构,它揭示了生物体内基因表达的一套内在规律。在这个图中,基因被表示为顶点,它们之间的关系是边。这些关系控制细胞发育过程,调节细胞分化阶段,决定细胞对周围环境的反应。因此,重建GRN对于在分子水平上理解生物过程至关重要,对发育生物学和临床医学的发展具有重要意义。
探索基因之间的关系主要有两种方法:实验方法和计算方法。传统上,生物学实验室的研究人员更多地关注于识别功能通路,而不是重建整个GRN。这是因为他们往往是在一个特殊的实验装置中观察基因的表达,如控制一个基因的表达水平,从而得出结论。因此,他们更多地关注实验的设计和实施,这需要大量的时间和金钱资源。此外,如果条件发生变化,所有的实验都需要重复。因此,尽管各种调控关系已经在实验中进行了研究,并在开放的数据库中提出,但与生物系统中潜在关系的数量相比,它们只代表了冰山一角。幸运的是,随着生物技术的发展,我们可以高通量地测量基因表达丰度,积累了大量的表达数据。根据观察到的表达数据重建整个GRN,无需额外的实验设计,可以加速发现新的调控关系的过程,并为如何控制细胞分化和驱动从一种细胞状态到另一种细胞状态的转变提供见解。在现代统计学的帮助下,这已经成为可能,这种计算任务通常被称为“GRN推理”。
在过去的几十年里,人们在开发有效的GRN推理算法方面付出了巨大的努力,并发表了许多论文。这些方法是从不同的角度提出的,适用于不同的假设和场景。最常用的GRN推理方法包括基于回归的、基于关联的、基于微分方程的、基于布尔网络的和基于贝叶斯网络的方法。基于回归的方法假设靶基因的表达水平可以通过其调控因子来预测。因此,识别调控因子相当于根据回归模型选择系数较大的变量。另一方面,基于相关性的方法利用了具有调控关系的基因倾向于在特定时间框架内共同表达的事实。这些方法使用诸如Pearson相关系数(PCC)、互信息(MI)和条件互信息等度量来计算任意两个基因表达模式的相似性。基于微分方程的方法旨在利用潜在调控因子寻找一个函数来描述靶基因的变化率,并进一步反映这些因子如何控制靶基因。基于布尔网络的方法通过构建布尔模型对GRN进行建模,该模型将基因的表达状态表示为逻辑值,利用逻辑函数描述调控过程,通常通过系统状态的动态序列进行验证。贝叶斯网络将逻辑函数升级为条件概率。这些典型的方法在基因水平上对感兴趣的生物过程提供了更多的见解。
上面提到的大多数方法主要是为bulk表达分析而开发的。然而,最近单细胞分辨率的新技术激增,如单细胞RNA测序(scRNA-seq),它使我们能够在单个细胞的精细水平上检测RNA丰度,而不是通过组织中所有细胞的平均水平,从而产生更大的数据量。此外,基因表达图像数据是另一种描述基因表达水平的技术。通过荧光检测,我们可以捕捉到成千上万个基因的空间表达,从空间差异的角度揭示基因表达的相似模式。这些庞大而多样的数据虽然为发现详细的调控规则提供了新的机会,但同时也带来了新的挑战,如数据维数高、信噪比低,使得检测基因之间的相互作用变得困难。
最近,从不同的角度对GRN推理方法进行了一些有价值的综述。例如,Zhao等人对几种经典和有代表性的方法进行了全面的调查,包括基于模型的方法、基于信息理论的方法和基于机器学习的方法。他们深入分析了核心思想、一般步骤和特点,并对方法进行了批判性评价。以单细胞测序数据为重点,Hung等人将针对单细胞数据开发的方法分为四类:布尔模型、微分方程、基因相关和伪时间相关集合。他们详细讨论了每种方法的可用性、实现、文档和用户友好性。Aditya等人的工作提供了一个全面的评估框架,以评估基于定义良好的基准单细胞数据集的GRN推理技术的准确性、鲁棒性和效率。这些综述对各种GRN推理方法的优势和局限性提供了有价值的见解,为该领域的未来研究提供了路线图。
近年来,计算机存储和计算能力的快速发展为深度学习方法在生物信息学的各个领域的应用铺平了道路,包括GRN推理(图1)。深度学习方法已经证明了它们从大型数据集学习和揭示复杂关系的能力,使它们非常适合具有挑战性的GRN推理任务。然而,这些方法的特点、性能和适用性各不相同,需要对其进行全面、系统的评价,以指导其使用和进一步发展。因此,有必要对GRN推理进行全面的调查和深入的讨论,重点关注新兴的数据类型,如单细胞测序数据和成像数据,并利用新的深度学习技术来应对这些挑战。
图1 GRN推理概述:输入通常是测序数据或成像数据;2. 有三种不同的方法来识别基因之间的关系,包括one2one, many2one和many2many,以减少这项任务的复杂性;3. 根据检测到的基因之间的关系,可以构造有向/无向图;4. 通过数据库比对、文献检索和实验发现三种方法进行验证
与以往的工作相比,Dong等人综述的贡献主要体现在三个方面:首先,收集并分析了用于GRN推理的12个主要深度学习模型的发展(图2);其次,详细介绍了这些深度模型的核心思想和总体步骤;第三,进行了一系列的实验来探索这些算法的性能,包括准确性和稳定性。本研究旨在帮助生物学家选择最合适的方法,同时激励数据科学家设计新的有效算法。
图2 利用深度学习发展现有的GRN推理。Daoudi等人的框指未命名模型
丰富的基因表达分析技术为研究生命程序创造了机会,包括基因如何相互调节。然而,表达式数据的分析面临着高维、大规模、稀疏性等挑战。深度学习在面临类似挑战的其他领域也显示出了希望,自然,这有望推进GRN推理。
在这项调查中,作者们讨论了12种基于深度学习方法的GRN推理方法。首先概述了这12种方法的发展过程,并将其归纳为四个分支:(1)预处理数据以获得更好的特征;(2)添加额外的信息;(3)添加背景分布以解决高假阳性问题;(4)提高因果分析能力,为寻求改进自己方法的研究人员提供指导。对于每种方法,分别介绍了核心思想和具体步骤。还在不同的实验环境中测试了这些方法,显示了它们的有效性和可扩展性。从性能比较中,发现没有一种方法在所有情况下都是最好的,但是有一些有希望的方向可以遵循。
根据基于测序数据的实验,为了揭示新的调控关系,首先建议尽可能多地收集先验知识,将无监督任务转化为有监督任务。如果已知的调控关系足以将GRN推理问题表述为矩阵补全问题,就可以得到准确的发现。否则,建议在已知的GRN中挖掘共同的调控模式,并将其转移到目标基因集中。总的来说,有监督的方法比无监督的方法性能更好。一些基本的基因属性信息,如TF,可以通过减少解决方案空间使无监督任务变得更容易。一个突出的例子是SCENIC算法,该算法综合利用绑定基序信息进行数据预处理和后处理。该方法有效地降低了GRN推理的复杂性并过滤了错误结果,从而提高了总体结果。
对于在给定不完全GRN的情况下检测新的调控关系,基于深度学习的几种GRN推理方法,如3DCEMA和DGRNS,都取得了令人满意的效果。在这些方法中,推荐3DCEMA,因为它具有成本经济性。在给定已知GRN对新基因集进行推断的场景中,考虑了局部拓扑结构的GRGNN优于其他方法。对于大型基因集,DeepDRIM也是一个不错的选择,因为它涉及到许多相似基因的表达作为背景。
时间序列是GRN推断的重要因素,因为它们可以为方向和符号类型的规则提供证据。DynDeepDRIM是DeepDRIM的扩展版本,可以有效地提高时序测序数据的基线性能。但是,由于该方法可能不稳定且对小数据集敏感,因此建议谨慎使用。当无法获得实时序列数据时,可以使用伪时间排序作为替代方法。然而,考虑数据质量、相似性度量和轨迹结构等因素是至关重要的。如果不仔细考虑这些方面,伪时间可能无法捕获准确的时间信息,而这对于可靠的GRN推断至关重要。因此,仍有改进的空间,其他时间序列测量方式,如RNA速度,可能是有用的。另一个挑战是如何处理分支时间轨迹。检测分支的关键点可以帮助研究人员了解一个细胞如何转化为另一个细胞。
对于成像数据,ConGRI可以准确地推断基因关系。在ConGRI中,一个更好的表征是预先训练好的。通过多模态数据和融合策略整合成像数据和测序数据比使用单一模态效果更好,且测序数据比成像数据更有意义。
尽管在GRN推理方面取得了进展,但这仍然是一个重大挑战。因此,除了有监督和无监督的方法之外,还需要探索新的策略,如自监督学习。此外,海量数据,特别是单细胞数据的丰富,为大型语言模型的应用提供了机会,这些模型将基因表示为暗示基因之间关系的载体。来自海量数据的预训练模型可以提供一个很好的起点,随着数据的增长,大模型更有优势。一种直接的方法是从寻找有效的基因嵌入表示开始,这与大多数现有深度学习技术相似的one2one方法一致。另一个想法是将基因调控网络引导基因表达的概念纳入预训练模型。这不仅增强了预训练模型的可解释性,而且能够从多对多的角度发现有效的全球调节关系。
另一个有前途的GRN推理途径是不同类型数据的集成。随着CRISPR技术、CRISP-seq、perturb-seq等技术的发展,我们观察到大量的敲除或敲低数据,通过识别基因间的因果关系,为推断GRN提供了有价值的信息。此外,基因敲除实验可用于验证从其他来源(如基因表达数据)推断出的调控关系。同样,将基因表达数据与染色质可及性或DNA甲基化数据相结合,可以提供有关基因调控的额外信息,提高GRN推断的准确性。空间分辨转录组学方法,如MERFISH和seqFISH技术,旨在研究如何定位和成像单个细胞的表达,将有助于发明新的GRN推断方法,并促进局部组织(如癌组织)的GRN推断。多模态数据从不同角度揭示调控过程,因此,通过整合这些不同类型的数据,有可能建立更准确、更完整的基因调控模型。
总之,虽然GRN的推断仍然是一项具有挑战性的任务,但有进一步研究和开发的有希望的途径。通过结合不同类型的数据,探索新的机器学习,特别是深度学习方法,以及开发更复杂的模型,我们可能能够更深入地了解基因调控及其在生物过程中的作用。
参考文献
[1] Dong J, Li J, Wang F. Deep Learning in Gene Regulatory Network Inference: A Survey. IEEE/ACM Trans Comput Biol Bioinform. 2024. doi: 10.1109/TCBB.2024.3442536.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 21:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社