||
SC-MO-GRN-DB:单细胞多组学基因调控网络综合数据库
基因表达的调控是一个决定细胞如何获得其身份、响应环境信号以及维持其功能的基本过程。转录因子(TF)是这一调控的核心,它们识别并结合特定的DNA序列来激活或抑制其靶基因(TG)。转录因子并非孤立作用,而是在一个相互连接的基因调控网络(GRN)中运作,该网络捕捉了调控因子及其下游靶标之间的依赖关系。这些网络提供了一个框架,用于理解遗传程序如何建立、细胞状态如何在发育或疾病过程中转变,以及转录因子活性的失调如何导致病理过程。
在过去的二十年中,推断GRN结构及功能的多种策略已被测试。在高通量测序(HTS)时代之前,重建GRN的尝试依赖于从文献、ChIP-chip或小规模分子实验中验证的TF-TG相互作用,这些实验规模和范围有限。HTS技术的出现使得能够使用RNA-seq、ChIP-seq等相关实验数据类型进行大规模的GRN推断,提供了全基因组的转录调控视图。单细胞RNA-seq和多组学实验进一步促进了能够以更高的功率和分辨率捕捉调控程序的算法和资源的开发。
针对GRN的各种数据库已经开发出来,用于聚合TF-基因相互作用,为该领域提供基准和参考点。虽然这些资源在推进系统级研究方面发挥了重要作用,但大多数依赖于大量数据或仅狭窄地关注转录组数据。尽管大量分析可以捕捉全基因组活动模式,但它反映了数百万个细胞中的群体平均值。这掩盖了细胞类型特异性调控,并掩盖了细胞群体中的异质性。因此,基于大量数据的网络在代表塑造基因表达的全范围调控机制方面受到限制,包括表观遗传修饰、染色质可及性、高阶染色质组织以及直接扰动效应。
单细胞技术的引入为在单个细胞水平上表征转录因子活性和网络结构提供了前所未有的分辨率。单细胞转录组学和表观遗传学都在构建能更好地捕捉动态调控程序和组织分子多样性的调控网络(GRN)方面发挥了关键作用。这些进展推动了利用单细胞组学数据来推断更精确和依赖上下文的调控网络的发展。尽管最近的研究努力已将单细胞转录组学数据整合到调控网络资源中,但缺乏一个包含实验验证的真实网络的多模态单细胞数据集。这一空白限制了我们对转录调控机制的理解,也阻碍了用于调控网络推断的新计算方法的评估。
评估和比较 GRN 推理方法仍然是一个主要挑战。每个计算研究通常会从不同的来源构建自己的基准数据集,需要大量的预处理来匹配生物学背景或实验模式。由于每个单独的工具采用不同的标准来选择或过滤参考网络,结果往往在不同研究之间不可比。这种碎片化阻碍了方法论进展,因为每个小组都必须从头开始重建他们的评估框架,而不是依赖于标准化的基准测试。尽管以前的工作提供了有用的参考数据集,但它们需要大量的手动整理,并且在对单细胞和多组学模式覆盖方面有限。因此,该领域缺乏一个统一的、全面的、现成的资源,该资源将高置信度的真实网络与进行严格基准测试所需的相应单细胞数据配对。
为了克服这些挑战,Valensi等人开发了SC-MO-GRN-DB(图1,https://scmogrndb.psu.edu)综合数据库,它将实验验证的参考调控网络(GRN)与协调的单细胞多组学数据集统一了起来。该资源收录了超过2200万条高置信度的调控边,这些边来自实验证据,并包含超过200万个细胞,涵盖六种分子单细胞模态:scRNA-seq、scATAC-seq、scChIP-seq、scDNA甲基化、scHi-C和基于scCRISPR的扰动筛选。所有数据集都经过系统处理和标准化,以促进跨研究和跨模态的比较。除了金标准GRN,数据库提供了一套经过精心挑选的单细胞多组学数据,支持可重复的分析和计算方法的基准测试。通过连接转录组和表观基因组调控层,SC-MO-GRN-DB为在不同细胞环境中研究GRN以及加速系统生物学、疾病机制和治疗靶点识别的发现奠定了独特的基础。
图1 SC-MO-GRN-DB数据库内参考网络整理流程和统计摘要
参考文献
[1] Valensi, H., Karamveer, K., Moeller, E., Ozdogan, S.E., Edwards, R., Uzun, Y., SC-MO-GRN-DB: A comprehensive repository for single-cell multiomic gene regulatory networks, iScience (2026), https://doi.org/10.1016/j.isci.2026.115323
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-4 23:14
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社