||
使用转录组和表观遗传单细胞数据预测基因特异性调控
表观遗传学领域中的一个主要挑战源于对转录调控多样性的有限理解。增强子或沉默子等顺式调控元件在塑造细胞发育和身份的基因调控程序中发挥着核心作用。它们与多种疾病相关,并被证明是治疗中分子靶点的有希望的候选者。
表观基因组-表达建模方法可分为两类:基因无关型和基因特异性型。基因无关型方法将所有基因联合建模,将它们视为一个统一的训练实例集。例如,基于序列的方法利用单个生物样本的 DNA 序列作为输入,预测全基因组范围内的表观遗传信号、基因表达水平或两者,从而绕过对大量生物样本的需求,因为它们利用了整个基因组的完整遗传信息。
相比之下,基因特异性方法利用样本间表观遗传信号的差异,通常在基因周围的一个窗口内,来预测基因表达。在这种情况下,为每个基因学习一个模型,以将表观基因组与基因表达相关联。虽然基因特异性方法由于需要训练大量模型而计算密集,但它们特别适合利用单细胞数据中大量样本提供的统计能力。因此,已经开发出几种针对单细胞数据的基因特异性方法。
一般来说,这些方法可以分为单变量和多变量。单变量或基于相关性的方法建模增强子-基因的成对关联,而多变量方法则对基因周围窗口内的所有区域进行回归。多变量方法相对于基于相关性的方法的优势在于它们能够捕捉共调控效应,即它们可以将多个调控元件对基因表达的联合影响考虑在内,而不是将每个元件单独考虑。
目前最先进的多变量方法 SCARlink利用多组学 RNA-seq 和 ATAC-seq 数据,通过正则化泊松回归预测基因表达。这种方法的局限性在于其限制为正系数,以便于模型学习和解释。因此,SCARlink 无法捕捉抑制性相互作用,而抑制性相互作用对于转录调控至关重要。SCARlink 与其他用于识别增强子-基因关联的多变量方法进行了基准测试,表明尽管 SCARlink 表现最佳,但没有一种方法能够完全捕捉染色质可及性如何调控基因表达。
一个特别的挑战是单细胞数据的固有稀疏性。虽然标准的 scRNA-seq 矩阵包含 55%至 95%的零,scATAC-seq 数据甚至更加稀疏,包含 90%至 99%的零。因此,提取具有生物学意义的见解仍然具有挑战性。解决此问题的一个常见策略是根据其基因活性谱的相似性将细胞聚合成元细胞。以往研究使用基于相关性的方法评估了元细胞聚合的影响。然而,对于多变量模型,元细胞聚合对基因表达预测准确性的影响尚未得到探索。
Rumpf等人开发了一个全自动的 Nextflow 流程,MetaFR(元细胞森林回归,https://github.com/SchulzLab/MetaFR,图1),该流程利用单细胞 RNA 测序和 ATAC 测序数据来构建用于基因表达预测的基因特异性回归树。这些树避免了过拟合,并且速度快,作者们展示了它们在准确性和运行时间方面都优于最先进的方法 SCARlink。此外,作者们评估了元细胞创建对模型性能的影响。应用信号聚合策略显著提高了预测准确性和发现生物学上有意义的交互的能力。最后,评估了影响模型性能的基因特征,如 TSS 数量、基因表达稀疏性和外显子长度等基因特征导致单细胞和元细胞模型在性能上存在差异。

图1 MetaFR 流程概述。A.通用学习设置:基因使用样本s中围绕基因的表观遗传信号学习特定模型。表观遗传信号在等大小的 bin中量化,并用于预测基因表达。B MetaFR 是一个自动化的 Nextflow 流程,它利用 scRNA 和 scATAC 数据,在单细胞或元细胞水平上使用随机森林(RF)回归树以基因特异性方式预测基因表达。对于单细胞设置,需要多组学数据。当应用元细胞创建步骤时,可以利用未配对的表观遗传和转录组数据。在这种情况下,RNA 和 ATAC 细胞必须事先整合,以对齐在共享特征空间中
参考文献
[1] Laura Rumpf, Fatemeh Behjati Ardakani, Dennis Hecker, Marcel H Schulz Predicting gene-specific regulation with transcriptomic and epigenetic single-cell data. bioRxiv 2025.11.16.688671; doi: https://doi.org/10.1101/2025.11.16.688671
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-22 11:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社