||
REUNION:从单细胞多组学数据中推断转录调控网络
单细胞多组学技术可以同时分析来自同一细胞的染色质状态和RNA,并且代表了一个令人兴奋的机会,可以将基因组转录和表观基因组观点结合起来,探索细胞命运决定背后的基因调控。然而,基因调控的组合复杂性,加上大量的噪声和数据的稀疏性,带来了计算上的挑战,而这些挑战还没有被调控推理算法充分解决。转录因子(TF)、可达基因组区域内的调控序列元件和靶基因是基因调控网络(GRN)的关键组成部分。通常,转座酶可接近的染色质测序(ATAC-seq)峰被用来表示可接近的区域。通过将特定染色质可接近峰或区域的“三联体”、推测的与之结合的TF和受调控的基因联系起来,我们可以提高GRN推断,更好地了解发育和疾病中的基因调控。然而,现有方法通常无法捕获这些组件之间的相互作用。大多数只利用两种特征类型分别估计区域-TF、区域-基因或TF-基因的成对关联。一些人进一步将成对关联组装成区域-TF-基因链接,而另一些人则在不构建三重链接的情况下推断GRN。由于成对关联也可能依赖于第三种特征类型,因此只考虑两种特征可能会丢失关键信息。最近的两种方法Pando和TRIPOD利用所有三种方式的信息来估计TF基因的峰值关联。Pando利用TF表达和可达性峰的乘积线性回归预测靶基因的表达。TRIPOD通过峰值可及性或TF表达匹配细胞聚集体来执行条件关联的两个测试。这两种方法都有很高的时间复杂度和有限的召回。
大多数单细胞多组学分析方法都是基于染色质可接近峰内的TF结合基序检测来建立峰-TF连接,主要取决于它们使用的基序收集和基序扫描算法。然而,这种方法有一些局限性。首先,许多TF具有相似的结合基序,这可能导致峰-TF链接假阳性,并可能破坏基序富集分析(通常用于识别TF调控因子)的有效性。其次,基序的存在可能不对应于活跃的TF结合事件。例如,TF可能不会在细胞中表达。为了解决这个问题,ChIP-seq库方法利用TF表达与假定的目标峰可达性之间的相关性来计算正则化TF结合评分。GRaNIE中也使用了类似的方法。然而,如果TF表达仅与峰值可及性弱相关,这两种方法都难以捕获TF结合位点(TFBSs)。有基于TF足迹的方法可以从大量ATAC-seq数据中预测TF绑定,这也依赖于基序检测,但这些并不能推断基因关联。基于基序方法的另一个挑战是基序扫描很大程度上依赖于序列,可能会错过许多基序。基序数据库不完整,并且TF不能连接到缺乏检测到的TF基序的可访问区域。缺失的峰-TF链接可能会限制基因表达的准确预测、组合TF调控的发现以及其他潜在链接的评估。
目前的单细胞多组学方法并没有冒险超越基序扫描,从缺乏已知基序的峰中恢复潜在的峰-TF连接。相比之下,已经开发了许多监督学习方法,利用DNA序列特征结合表观基因组数据来预测TF结合。这些方法通常需要ChIP-seq(染色质免疫沉淀测序)数据进行训练,这些数据获得成本很高,并且仅适用于有限生物学背景或细胞类型的少数TF。
在这里,Yang等人整合了单细胞多组学数据中的特征类型,以改进TF与基因组区域结合的预测,提出了REUNION方法(图1)。他们首先推断三重峰-TF基因关联,以确保在可访问区域内更准确地调用峰-TF,然后使用伪半监督学习来恢复潜在的遗漏峰-TF关联,特别是在缺乏已知基序的区域。REUNION方法比其他方法捕获更多的结合相互作用,具有更高的特异性。
图1 REUNION示意图概述。(a)基序扫描方法仅识别含有预测基序的染色质区域的峰-TF关联,通常仅依赖于序列。REUNION首先将Unify应用于单细胞多组数据,以推断具有预测基序的染色质可及性峰上的TF基因三联体。然后,它将来自Unify的峰-TF对作为重新发现的输入,重新发现使用伪半监督学习从所有可达性峰中恢复缺失的峰-TF关联,包括那些缺乏检测到的基元。(b) Unify包括三个连续的模块,分别用于(i)为基因分配可达性峰,(ii)标准TF基序扫描,以及(iii)使用互补评分函数评估可能的TF-基因三联体关联强度。使用三元组信息产生比单独的基序扫描更具体的峰-TF预测。(c-g)Rediscover模块。使用SVD对峰可达性和峰-基序矩阵进行分解,分别使用染色质可达性特征(c)和基于基序的序列特征(d)的低维嵌入来生成峰的表示,然后在每个特征空间中进行峰聚类(e)。在(e)中,深色点表示两组中都有隶属关系的峰。(f)配对组中峰的富集分析。(g)伪标记训练样本选择和预测模型训练
参考文献
[1] Yang Y, Pe'er D. REUNION: transcription factor binding prediction and regulatory association inference from single-cell multi-omics data. Bioinformatics. 2024;40(Supplement_1):i567-i575. doi:10.1093/bioinformatics/btae234
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 03:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社