||
利用孪生信息进行基因调控网络推断
单细胞水平的基因活性是动态且可变的,即使在同源细胞群体中也导致分子异质性。这反映了转录动态的潜在随机性—mRNA 通常在细胞中数量很少,它们计数的差异可能有表型后果。由于 mRNA 的产生主要是在“爆发”而不是恒定速率中进行的,因此这种可变性进一步放大,其中每个基因随机地在非活性状态和短暂的活性状态之间转换。
通常情况下,细胞的转录组状态得以维持,基因共表达具有持续性和鲁棒性,超越了内在噪声(如图 1a 所示)。基因表达受转录因子(TF)调控,转录因子调节转录爆发的持续时间和规模。反过来,转录因子本身也是基因产物,其产生可以受其他转录因子调控,形成基因调控网络(GRN)。这样的网络可能涉及数千个基因。例如,人类基因组有超过 20,000 个蛋白质编码基因,其中约10%编码转录因子。为了应对基因调控网络的庞大和复杂性,研究已经识别出常见的网络基序和模块,这些基序和模块可以通过功能和发育限制区分,并在不同的动态时间尺度上运作。
由于基因调控网络(GRN)在众多细胞过程中发挥着核心作用,推断其结构至关重要。为了利用转录组中的调控相关性来重建底层 GRN,人们已设计出大量计算方法,包括数据驱动方法(例如,相关性或互信息网络)以及概率模型(例如,最大似然估计或贝叶斯网络)。
单细胞转录组学的出现使得可以在单细胞水平上观察全基因组范围内的调控相互作用,并推动了从不断增长的高通量数据中开发新的推理方法。通常,现代框架会整合额外信息,例如顺式调控基序分析。类似地,单细胞多组学数据也可以使用,这建立在单细胞技术的进步之上,如遗传扰动筛选、染色质可及性和染色质免疫沉淀测定。尽管前景广阔,但这些方法在可扩展性、多重检测能力或成本效益方面存在局限,并且大多数推理尝试仍然主要依赖转录组学。反过来,仅使用转录组学数据也存在局限性。
与批量分析技术类似,单细胞测序会破坏细胞,使得无法获取单个细胞内部的动态信息。因此,人们转而寻找群体中不同细胞之间的调控相关性。已识别出两个主要障碍(图 1b):(i)同源细胞群体之间的相关性可能源于其他非调控因素来源,掩盖了所需的调控相互作用。值得注意的是,经常遇到两种和三种共存的亚群,其转录状态不同,动态时间尺度远长于典型的调控相关性。例如,想象一个场景,其中两个基因在一个状态下高度表达,在另一个状态下低表达。由于细胞状态的异质性,这些基因在整个群体中相关,混淆了调控相互作用的推断。(ii) 基因表达相关性的对称性使得推断的网络无方向性,调节因子与其靶基因之间的因果关系丢失。
这里,Keerthana等人介绍了 TwINFER(https://github.com/GoyalLab/TwINFER,图 1c),一个通过结合孪生信息来解决这两个障碍的框架:一个广泛术语,用来表示通过识别孪生细胞对可以提取的任何附加信息,TwINFER 能够区分调控和非调控相关性,并确定因果关系。通过在一个已知真实情况的合成 GRN(基因调控网络)数据集上测试该框架,展示了其强大功能。这些模拟基于一个详细的相互作用模型,参数的选择基于已发表的实验数据。为了证明该技术基于系统无关的基本原理,作者们考虑了一个线性的玩具模型。这个线性模型是解析上可处理的,因此能够以数学的严谨性重现该框架。从 GRN 的基本构建块开始:一个由两个相互作用基因组成的系统。对于这个范例设置,穷尽了所有可能的相互作用方向和类型(激活/抑制)的组合。然后处理了更大规模、更复杂网络的构建,明确地解决了组合调控和基序问题。已知基于相关性推断的方法难以推断基因调控网络。基于计算机模拟实验的已知真实情况,证明了 TwINFER 比基于转录组的最新 GRN 推断方法 GRNBoost2表现更优。最后,在谱系条形码单细胞 RNA 测序(scRNA-seq)数据集上实现了 TwINFER。

图1 基于孪生信息推断基因调控网络。(a) 基因调控导致基因共表达持续超过内在噪声。(b) 识别出基于相关性推断方法的主要两个局限性:(i) 由于细胞状态异质性,基因之间可能产生相关性,即使没有调控。(ii) 在基因调控网络中,基因共表达矩阵是对称的,因此因果关系丢失。(c) TwINFER 利用在不同时间点测量的样本内和样本间孪生相关性来推断调控的存在、方向和类型(激活/抑制)。然后可以将成对相互作用结合起来推断基因调控网络。孪生信息还可以用于消除扇出和前馈环中的假阳性
总体而言,该研究展示了如何利用孪生信息识别因果关系、细胞状态异质性和隐秘的三元组模式。这一方法适用于合成和真实的实验数据集,尤其适用于不同细胞类型和背景下的新兴条形码 scRNA-seq 数据集。
参考文献
[1] Keerthana M. Arun, Yuval Scher, Yuhan D. Zhang, Ida Büschel, Benjamin Kuznets-Speck, Carsten Marr, Yogesh Goyal. Leveraging Twin Information for Inference of Gene Regulatory Networks. bioRxiv 2026.02.22.707230; doi: https://doi.org/10.64898/2026.02.22.707230
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-21 19:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社