zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

基因调控网络的进化

已有 101 次阅读 2026-5-30 14:53 |个人分类:科普|系统分类:科普集锦

基因调控网络的进化 

基因调控网络为转录调控提供了系统层面的视角。生物技术和计算建模的进步正在重塑基因调控网络的推断方法,并开辟了深入理解机制的机会。 

基因调控网络建模的概念基础

通过建模转录因子(TF)与其下游靶基因之间的相互作用来构建基因调控网络(GRN),我们可以产生一个结构化的调控架构表示,该架构是表型背后的基础。在这样的框架中,基因和 TF 被表示为节点,而调控相互作用被表示为有向边,从而能够进行系统层面的分析,而不是孤立的、成对的分析。 

通过将高维基因表达数据组织成连贯的网络结构,基因调控网络(GRN)能够推断出上游调节者的活动状态与观察到的表达模式一致。GRN 还有助于分析组合和层次化的调控关系,阐明协调调控如何在不同条件下导致表型变异。 

一个准确的 GRN 应该能够在不同数据集上泛化,预测对扰动的响应,对中等程度的噪声保持稳健,并与已建立的生物学知识相一致,同时生成可检验的假设。当经过充分验证时,GRN 不仅作为一个预测模型,还作为一个理解复杂调控系统的机制性框架。 

背景:从小型电路到全基因组推断

早期的基因调控网络(GRN)通过逻辑系统和动力系统框架在小规模上建模,包括布尔模型和基于微分方程的模型,这些模型通常关注有限数量的基因。然而,21 世纪初微阵列技术的广泛应用从根本上改变了这一范式。基因表达现在可以跨越整个转录组进行测量,从而能够从样本中表达变化的系统模式中推断调控相互作用。这标志着全基因组、数据驱动型 GRN 推断的开始。 

21 世纪中叶,随着转录组数据集的积累和共享,各种网络推断算法被开发和应用。基于成对相关性和互信息的方法量化了转录因子(TF)和基因之间的协同表达,其中一些方法结合了剪枝策略以减少间接相互作用。除了基于成对关联的方法外,还开发了稀疏回归和概率图模型,以考虑多个调控因素的联合效应。 

尽管方法多样,大多数研究依赖于群体层面的测量,并根据每个数据集推断出一个网络,尽管可以通过基于样本特定节点表达的边重新加权或剪枝来引入背景信息,例如,或者通过比较基于不同预定义条件构建的网络。尽管其他“组学”层面的全基因组检测方法可用,但它们通常仅限于单个转录因子、特定细胞类型或小规模队列。因此,在该时期,调控网络推断主要仍集中在转录组数据上。 

这一早期网络推理的核心认识是,基因表达本身无法提供完整的调控视图。转录本丰度反映了调控的下游后果,但并不能直接测量染色质可及性或转录因子结合。此外,转录因子的活性并不一定与其自身的信使 RNA 丰度相符,因为调控蛋白通常通过翻译、翻译后修饰和依赖环境激活来控制。这促使了先前调控知识的整合,例如转录因子 DNA 结合基序、染色质免疫沉淀测序(ChIP-seq)数据和蛋白质-蛋白质相互作用。整合这些互补数据来源的方法——例如通过正则化回归、图模型或消息传递框架——进一步精确了调控相互作用的预测。此外,社区范围内的基准测试工作,包括 DREAM 挑战,突出了——正如计算机科学中早已确立的原则一致——结合互补方法通常能提高 GRN 推理的鲁棒性和可重复性。 

随着这些方法的发展,单样本网络建模方法将推断扩展到数据集和条件级别的重建之外,并能够量化样本和个体之间的调控异质性。与此同时,可扩展的单细胞转录组学技术的进步将转录组分析扩展到细胞分辨率。调控网络推断开始超越群体水平模型,尽管大多数框架都是使用批量转录组测量进行开发和验证的,并且没有整合额外的“组学”层。 

近期发展:针对特定背景的 GRN 推断的单细胞和多组学整合

大规模单细胞和多组学数据集的日益增多,重塑了调控网络(GRN)建模。近期的研究进展越来越多地整合多种数据类型,并应用先进的计算方法来构建特定背景、具有机制可解释性的网络。这些策略能够详细表征细胞异质性、调控状态和转录因子(TF)与基因的相互作用,达到单个细胞类型的水平。因此,它们揭示了在批量转录组分析中往往被掩盖的调控关系。 

从高分辨率单细胞数据中推断调控网络(GRN)的方法可以大致分为两类。第一种完全依赖于转录测量,而第二种则结合先验知识将转录因子与它们的靶基因联系起来。与批量网络建模中,这些先验提供了补充证据,提高了推断的准确性,尤其是在单细胞数据稀疏且嘈杂时。 

例如,SCENIC 通过结合转录因子基序富集与基因共表达模式来定义调控子。这种策略能够在单细胞分辨率下识别活跃的调控模块,并促进对转录因子驱动程序的机制解释。类似地,SCORPION 整合了转录因子结合基序、蛋白质-蛋白质相互作用数据以及通过将转录相似细胞聚合成元细胞来减少数据稀疏性后估计的基因共表达数据。它构建了加权、有向、全转录组范围的 GRN,这些 GRN 在样本之间是一致且可比较的。该框架在分析代表相同表型的多个网络时,增强了真实调控相互作用的检测,同时减少了虚假关联。 

尽管取得了这些进展,单细胞 RNA 测序(scRNA-seq)本身只能间接提供对调控动态或染色质状态的洞察。为了解决这个问题,更近期的技术将转录组谱与表观基因组测量相结合,例如使用测序进行转座酶可及染色质测定(ATAC-seq)、组蛋白修饰和 DNA 甲基化。整合可以在同一细胞内通过匹配的多模态测量进行,或通过未配对的多组学数据集的计算对齐来实现。将转录因子(TF)活性与染色质可及性和表观遗传背景联系起来,旨在使基因调控网络(GRN)在具有相同表型状态的样本中具有机制可解释性和可重复性。 

一些计算框架通过建模共享信号和模态特定信号来形式化多组学整合。例如,因子分析可以识别跨多种数据类型的相互作用,并从无配对数据集中对齐潜在结构,这可以改进网络重建。SCENIC+整合转录因子表达、染色质可及性、基序富集和增强子-基因关联,以生成增强子驱动的调控网络。这些网络可以捕捉分化过程中的动态调控变化,同时减少虚假的转录因子-靶标连接,例如。HuMMuS 使用一个多层网络模型,为转录因子蛋白-蛋白相互作用、单细胞 ATAC-seq 峰和 scRNA-seq 基因表达设置单独的层,允许分析转录因子合作与竞争、增强子-基因相互作用和调控群落结构。 

潜因子模型为这些多组学方法提供了一个统一的视角。例如,变分自编码器提取复杂多组学数据的低维潜表示,捕捉跨模态的协调变化。当与可解释机器学习技术(如 Shapley 加性解释(SHAP)或注意力机制)结合时,潜表示允许系统地评估导致调控结果的潜变量和观测特征。这种方法分离了潜在的信号模式,量化了特征重要性,并生成了关于调控过程的机制性基础假设。它将传统基于因子和网络 GRN 推断获得的见解扩展到集成、多模态分析。 

展望:空间分辨和高分辨率的 GRN

尽管单细胞和多组学方法具有更好的分子分辨率,但它们通常将细胞与其原生空间环境分离。空间转录组学提供了关于组织结构和细胞邻近性的信息,允许在定义的微环境和生态位内对调控相互作用进行建模和解释,而不是假设细胞孤立。空间转录组学的第一个 GRN 方法直接应用了基于 scRNA 的方法。方法用于空间斑点,或首先识别空间簇然后重建簇特异性 GRN。然而,最近的努力试图将空间先验直接整合到 GRN 估计中。SpaGRN CLARIFY 等方法将空间邻近性、细胞通讯和 TF-靶标关系结合在统一的建模框架内。 

随着空间转录组技术的分辨率和通量提高,GRN 建模的使用将大幅增长。未来的方法可能结合空间和分子先验来提高建模精度,并实现跨不同条件或组织类型的比较分析。这些进步可能为组织结构、细胞间相互作用和调控动态提供更深入、更机制性的见解。 

另一个关键途径着重于提高分辨率和上下文特异性。与其为整个组织或细胞类型推断一个单一网络,新兴方法可能以更精细的尺度重建调控相互作用,甚至可能细化到单个细胞,同时考虑细胞状态和发育轨迹中的异质性。随着空间和多模态数据集变得越来越丰富和复杂,基因调控网络推断可能会朝着整合额外“组学”层的综合框架发展,结合时间和状态依赖性信息。这种进化将使分析超越静态网络,转向能够捕捉组织结构化环境中调控动态的上下文感知模型。

挑战与机遇

在调控网络推理方面仍存在一些挑战,但这些挑战也为方法学进步提供了机遇。首先,目前还没有公认的黄金标准用于基准测试,因为评估本质上依赖于具体情境,而参考网络在定义上是不完整的。如果能在细胞、样本、基因型或动态状态下存在一个完全解析的调控图谱,那么网络推理将不再必要。然而,最近的大规模扰动实验提供了广泛且高分辨率的实验验证,使得对预测的调控相互作用的系统性评估比以往更加可行。然而,定义能够跨系统和模态通用的评估原则仍然是一项艰巨的任务。该领域有着强烈的合作基准测试传统,这将继续成为一个重要的优势。 

数据稀疏性和计算规模呈现交织的约束。当前的单细胞和空间技术涉及空间分辨率和“组学”覆盖之间的权衡,有时被比作“不确定性原理”,导致稀疏和随机的测量结果,直接影响网络推断。尽管技术进步在提高分辨率和数据集规模的同时,也同时增加了对内存、存储、可扩展计算和采用替代计算架构的需求。因此,持续的进步将取决于将方法论创新与计算基础设施的进步相结合。 

网络推断只是理解基因调控的第一步,因为推断出的网络也需要进行分析。迄今为止,分析通常集中在总统计数据,如调控子活性或中心性指标。然而,基因调控的系统级见解可能取决于整个底层网络结构的特性。网络科学提供了丰富的分析方法,例如边缘动态和拓扑分析,但这些方法应用于大量细胞或样本特定调控网络时,计算需求高且尚未在网络建模中确立。调控相互作用具有结构性和相互依赖性,而在调控生物学中,比较网络集合的稳健策略尚未很好地建立。因此,开发数学基础和计算高效的框架来分析网络集合,代表了该领域的一个核心机遇。 

得益于人工智能的进步,该领域正在快速发展,基础模型、迁移学习、持续学习和多模态数据集成相结合,为调控网络推理提供了新的视角。例如,在大型单细胞综合数据集上预训练的基础模型(如 scGPT)的功能示例,捕捉了可推广的调控结构表示,这些表示可以在稀疏或噪声环境中稳定推理。通过迁移学习,如 CellPolaris 等平台将这些表示适应特定的组织、物种或疾病背景,实现数据高效和上下文感知的网络重建。 

展望未来,扩展公共单细胞和多组学图谱,以及扰动数据集,可能作为共享的统计基础,减少每个数据集的从头重建需求。同时,推断的调控网络可以作为结构化生物学先验,约束和指导大规模表征学习架构。这种互惠整合——结合预训练模型、机制先验、多模态数据整合和可扩展计算——为稳健和可解释的调控网络建模提供了一条连贯的路径。然而,遵循科学方法以确保这些进步产生生物学相关和可操作的结果,仍然是我们共同的责任。 

参考文献

[1] Belova, T., Osorio, D. & Kuijjer, M.L. The evolution of gene regulatory networks. Nat Comput Sci 6, 318–320 (2026). https://doi.org/10.1038/s43588-026-00981-3 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png 

 



https://blog.sciencenet.cn/blog-571917-1537141.html

上一篇:DoFormer:基因扰动因果Transformer
下一篇:RegRegSEA:表观基因组数据调控区域集富集分析网页服务器
收藏 IP: 183.224.109.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-5-30 17:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部