博文

在基因调控网络中探测转录因子子集

已有 690 次阅读 2026-6-7 11:20 |个人分类:科普|系统分类:科普集锦

在基因调控网络中探测转录因子子集

转录因子（TF）是调节蛋白，通过序列特异性方式与 DNA 结合来影响基因表达。TF特异性结合染色质的可及区域，这些区域也被称为调控元件（RE）。由于它们在众多生物过程中的核心作用以及与疾病的关系，TF是持续研究的对象。为了了解 TF 的功能，了解其靶基因至关重要。将 TF与基因进行映射有多种方法，例如依赖收集 TF-基因相互作用的数据库、关联基因和 TF 在一系列样本或单个细胞中的表达、比较不同条件下的变化、观察 TF 扰动后的后果，或通过注释转录因子结合位点（TFBS），这些位点可源自实验数据（如 ChIP-seq）或基于已知序列结合偏好的预测。由于基因不仅受其邻近区域结合的 TF的影响，基因的所有 RE都应被视为潜在 TFBS 的位置。基因与转录因子之间的关系通常通过网络建模，其中每条边代表一种调控影响。

在这样网络中的一个挑战是识别那些调控目标基因集的转录因子（TF），例如特定通路或疾病的基因。通常，转录因子的重要性是逐个评估的。然而，已知转录因子是协同作用的，并且通路可以由一组转录因子调控。一个著名的例子是四个 Yamanaka 因子 Oct3/4、Sox2、c-Myc 和 Klf4。在网络中识别一组转录因子，无论是为了形成关于通路如何被调控的假设，还是为了寻找扰动实验的潜在靶点，都可能成为一个组合问题。例如，从 400 个转录因子中挑选三个会导致超过 1000 万种可能的组合。很少有工作明确旨在寻找转录因子组。Gross 和 Blüthgen试图通过将其描述为最大流问题来识别最大化获得关于生物网络内部关系知识的扰动组合。类似地，工具 MEED 建议通过预测逻辑模型最大化关于调控关系的知识来进行扰动实验。Wang等基于扰动数据集为每个基因构建了转录因子调控模型，随后他们使用这些模型来定义一组最有助于理解基因调控的扰动。虽然这些方法有望帮助设计实验以验证网络，它们的目标不是寻找在网络上具有最大基因覆盖率的转录因子集。

Geis等人解决寻找一组转录因子（TF）以最大化目标基因数量的问题，即那些受转录因子调控的基因，通过求解一个随机探测问题。探测问题要求从给定的基础集合中选择一个元素子集，以最大化给定的随机目标函数。形式上，对于给定的随机变量集合 A = {X₁, . . . , X_n}和随机函数 f : 2^A→ R，目标是选择一个子集 S ⊆ A，满足某些约束条件，使得 f(S)被最大化（在期望意义上）。通常，所选子集受大小约束。这个问题有两种类型的算法。非自适应算法事先决定要探测哪些元素，即要选择 S 中的哪些元素。更通用的自适应算法可以在决定下一步探测什么时考虑最近探测的实现结果。这使得自适应算法通常比非自适应算法更强，但也通常更复杂和昂贵。为此，研究自适应差距是有趣的，即最优自适应算法的期望目标值与次优（或）非自适应算法的期望目标值的最大情况比率。

在这项工作中，Geis等人首先将转录因子-基因网络模拟为具有不同设置的加权二部图，并测试了用于选择转录因子集的适应性和非适应性算法（图 1，https://github.com/lukasgeis/BipartiteRegulatorProbing）。使用不同的目标函数评估算法的性能，讨论其特性，并对其适应性差距进行解析界定。虽然这项任务的最优解计算成本过高，但考虑了高效的非适应性算法。它们的结果与成本更高的适应性算法相比更为优越。换句话说，提出了具有近似最优解的高效探测算法，克服了测试过多组合的问题。本质上，模型等同于经典随机探测模型，因为任何任意的目标函数也可以用二部图来定义。然而，现有工作仅在一个随机变量集上形式化目标函数。作者们专门优化了模型，以允许更清晰和直观的表述，这在使用边不独立的边目标函数时尤其相关。

图1 研究概述。转录因子（TF）及其靶基因被建模为二部网络。在不同的模拟图中测试了不同的算法、目标函数和图设置。在应用于真实数据时，基于 T 细胞的 H3K27ac ChIP-seq 数据构建了两个网络。TF和基因之间的边依赖于基于基序的转录因子结合位点（TFBS），其中考虑了基因的所有预测调控元件（RE）。目标是找到具有最佳覆盖 T 细胞介导免疫和淋巴瘤相关基因的 TF集合

在真实数据应用中，作者们构建了参与 T 细胞介导免疫的基因网络以及与淋巴瘤相关的基因网络。目标是找到具有最佳网络覆盖的转录因子（TF）三元组。更具体地说，希望找到网络中总边权重最高的 TF 组合，同时每个基因只能考虑一个 TF。识别出的 TF 对基因集具有特异性，三元组内存在显著共表达，并且可以通过文献证据支持其相关性。该网络构建方法可以轻松应用于不同数据，因为所需的数据模态仅是 RE 的样本特异性活性测量，例如 ATAC-seq、DNase1-seq 或与 RE 相关的组蛋白修饰的 ChIP-seq。没有其他工作优化选择 TF 子集以最大化调控基因的覆盖范围。此外，探测框架可以应用于由任何其他可用方法衍生的 TF-基因网络。原则上，它也可以用于任何其他类型的二部网络，例如 RE 与它们调控的基因之间的相互作用或 miRNA 与它们的 mRNA 靶标之间的相互作用。

参考文献

[1] Geis L, Hecker D, Hoefer M, Meyer U, Schulz MH. Probing transcription factor subsets in gene regulatory networks. Algorithms Mol Biol. 2026 May 15;21(1):7. https://doi.org/10.1186/s13015-026-00297-x

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC