||
ENCORI:RNA互作组的百科全书式调控和功能图谱
RNA 互作组包括 RNA 结合蛋白(RBP)和 RNA,对于调节细胞基因表达水平至关重要。在过去的几十年里,出现了先进测序技术,如交叉连接免疫沉淀测序(CLIP-seq)(例如HITS-CLIP、iCLIP、eCLIP 和 PAR-CLIP),以及 RNA-RNA 互作组测序(例如SPLASH、MARIO、PARIS、RIC-seq、KARR-seq 和 LIGR-seq),它们分别可用于系统地探索转录组范围内的 RBP-RNA 相互作用和 RNA-RNA 相互作用。然而,这些技术产生的数据集通常伴随着大量背景噪声,给准确识别这些相互作用位点带来了重大挑战。
为了解决这个问题,开发了两种计算工具,RBP 结合位点寻找器(rbsSeeker)(图1a)和 RNA-RNA 相互作用扫描器(rriScan)(图1b),用于分析 RBP CLIP-seq 和 RNA-RNA 相互作用组的广泛高通量测序数据集,提高了准确性和灵敏度。值得注意的是,Zhou等人介绍了 RNA 相互作用组百科全书(ENCORI,https://rnasysu.com/encori/),这是一个综合图谱,集成了由这两种新工具鉴定的高置信度 RNA 相互作用,展示了 RNA 相互作用组的功能和机制见解(图 1c)。

图1 新型算法和ENCORI 图谱的工作流程。a, rbsSeeker 的核心算法结构,用于从 CLIP-seq 数据中识别 RBP 结合峰和交叉连接位点。b, rriScan 的主要算法框架,用于检测和表征 RNA-RNA 相互作用。c, ENCORI 图谱的概述。ENCORI 整合了大规模的公共 RBP 和 AGO CLIP-seq、RNA-RNA 相互作用组和降解组测序数据。我们构建了最全面的 miRNA-RNA、RNA-RNA 与蛋白质-RNA 相互作用网络。通过挖掘涉及数千种癌症和疾病的数据库以及其他功能基因组学数据集,ENCORI 能够探索人类疾病中各种相互作用的潜在功能。此外,还开发了 30 多个基于网络的模块,使用户能够以简单直观的方式浏览和探索数百万种相互作用及其与疾病的关系
为了提高 CLIP-seq 数据集中 RBP 结合位点的检测准确性,开发了 rbsSeeker,这是一款统一软件,使用两种统计模型来识别不同类型 CLIP-seq 数据中的显著 RBP 结合事件(图 1a )。使用 eCLIP、HITS-CLIP、iCLIP 和 PAR-CLIP 数据集中几种常用的评估指标,将 rbsSeeker 与七种广泛使用的工具(CTK、CLIPper、DEWSeq、Piranha、PureCLIP、omniCLIP 和 Skipper)进行了比较。rbsSeeker 在识别 RBP 结合峰和单个交叉链接位点方面表现出更高的准确性,包括 C 到 T 突变、截断和缺失,这通过更高的基序出现频率和 RBP 识别基序周围的结合密度增加而反映出来(图 2a,b)。对 m6A 阅读蛋白 YTHDF1 和 CLIP-seq 数据集的进一步分析YTHDF2 表明 rbsSeeker 捕获的元基因模式与m6A分布一致。它在终止密码子处检测到更高的结合密度,并识别出周围结合密度升高的m6A 位点数量最多(图 2c,d )。基于已建立的 RBP 结合偏好,在各种 RNA 功能区域评估了这些工具。通过将 CLIP-seq 数据集中识别的结合区域与注释的 RBP 偏好区域进行交集,rbsSeeker 在反映 RBP 在剪接位点、编码序列(CDS)和 3′非翻译区(UTRs)的固有结合模式方面达到了高精度(图 2e)。rbsSeeker 在生物重复实验中始终如一地重现 RBP 结合事件,并全面检测结合区域。此外,rbsSeeker 结合了高计算效率,并能够同时检测结合峰和单个交叉链接位点,使其非常适合大规模 CLIP-seq 分析。此外,rbsSeeker 与多种 CLIP-seq 协议具有广泛的兼容性,支持识别多种结合事件,可使用或不使用输入对照,并具有简化的、无依赖关系的安装方式,这有助于将其集成到各种 CLIP-seq 分析工作流程中。总体而言,这些评估一致支持 rbsSeeker 的准确性和表征多种 RBP-RNA 相互作用事件的能力,反映了从 CLIP-seq 数据中揭示的 RBP 结合特性。
为发现 RNA-RNA 相互作用,开发了 rriScan 这一新软件,该软件具有评分体系,用于重新分析由不同测序方法(如 SPLASH、MARIO、PARIS、PARIS2、RIC-seq 和 LIGR-seq 方法)产生的高通量 RNA 相互作用组数据集(图 1b 和方法)。作为基准,使用了已建立的小核仁 RNA(snoRNA)-核糖体 RNA(rRNA)相互作用,这些相互作用被广泛用作参考标准,snoDB 和 snoRNA Atlas 提供了经过整理的参考资源。为进行比较评估,RNAInter 作为现有预测资源的代表。rriScan 识别的实验验证的 snoRNA-rRNA 相互作用远多于随机背景模型和 RNAInter(图 2f),表明其预测结果富含真实相互作用。在细胞系中,rriScan 预测的超过一半相互作用直接得到 snoDB 或 snoRNA Atlas 验证(图 2g),显示出与已建立参考数据集的高度一致性。除了这种比较基准测试外,还使用受试者工作特征(ROC)曲线分析进行了定量性能分析。 结果表明,rriScan 能够从 RNA 相互作用组测序数据中准确识别 RNA-RNA 相互作用,其 ROC 曲线下面积(AUC)达到 0.943,显示出高准确性和高灵敏度(图 2h)。综合定量基准和与精选参考数据集的比较评估,证明 rriScan 为分析 RNA-RNA 相互作用提供了一个可靠的框架。

图2 rbsSeeker 和 rriScan 的性能基准。a, 已知 RBP 结合基序在由不同 CLIP-seq 计算工具识别的 RBP 结合峰和位点中的分布情况。数据表示为三次独立测试的平均值±标准差。b,不同计算工具下,已识别的 RBP 结合峰和位点与已知 RBP 结合基序起始位点的距离。所有峰和位点均用于分析。c,用于检测 iCLIP 数据集中 YTHDF1-和YTHDF2 结合峰内已知m6A位点的 CLIP-seq 分析程序的准确性基准。d,YTHDF1-和由 CLIP-seq 分析程序识别的 YTHDF2 结合峰与已知的m6A位点。测试数据集的显示顺序与 c 相同。e, CLIP-seq 分析工具在预测已知 RBP 生物学特性方面对 5′和 3′剪接位点的结合性能基准测试。f, rriScan 和 RNAInter 识别的 snoRNA–rRNA 相互作用比较。g, rriScan 识别的 snoRNA–RNA 相互作用在人类细胞系中的验证率。h, rriScan 在预测 snoRNA–rRNA 相互作用时的敏感性和特异性估计
准确识别 RNA 中的 RBP 结合区域对于研究 RBP-RNA 相互作用及其功能作用至关重要。使用 rbsSeeker 软件分析了来自人类和小鼠的 2,675 个已发表的 CLIP-seq 数据集,涵盖 333 种 RBP 和 173 种组织和细胞系,并将数百万个高置信度的 RBP-RNA 相互作用整合到 ENCORI 平台的 RBP-RNA 模块中。该模块提供了显示 RBP-RNA 相互作用的有用功能性和全面数据,便于研究其生物学功能和分子机制。例如,使用该模块中的 RBP-RNA 相互作用数据系统地研究了人类 RNA 中 RBP 的结合偏好,重点关注靶向非编码 RNA(例如,长非编码 RNA、tRNA 和 rRNA)以及 RNA 内多种功能元件(例如,5′ UTR、CDS、3′ UTR、内含子、LINE1、LINE2 和 Alu)。 进一步分析表明,RNA 结合蛋白(RBP)可能通过识别 RNA 中的各种功能区域来协同参与调控重要的生物过程。
RNA 结合蛋白(RBP)通过与靶 RNA 识别不同的基序序列结合,在调节广泛的生物学和病理通路中发挥着关键作用。为了揭示 RBP 结合偏好的复杂性质,对 rbsSeeker 软件识别的结合位点上的 RNA 结合基序进行了 de novo 分析。随后,将结果整合到 RBP-基序模块中,该模块包含两个子模块,并提供多种基序信息。该模块允许用户探索具有相似 RNA 结合基序的 RBP 集合。例如,使用高置信度和保守基序构建了全面的 RBP 结合基序图谱,展示了它们多样的识别模式和调控作用。此外,使用该模块系统地扫描了含有经典m6A基序的 RBP,从而鉴定出可能与m6A修饰相关的 RBP。值得注意的是,进一步的生物信息学分析和实验验证,包括 RNA pull-down 随后进行 Western blot、dot blot、液相色谱-串联质谱联用和定量 PCR 的 RNA 免疫沉淀(RIP),证实了这些 RNA 结合蛋白(RBP)之一 CPSF6 作为 mRNA 相关蛋白,参与调控 RNA 稳定性。
RNA–RNA 相互作用参与调节多种细胞过程,例如靶向指导的 miRNA 降解(TDMD)和小核 RNA(snoRNA)指导的伪尿苷修饰中。从 Argonaute (AGO)–CLIP-seq 数据中鉴定了约 890 万个高置信度 miRNA 靶标相互作用,并将它们整合到 miRNA 靶标模块中,该模块具有多种功能,帮助研究人员探索 miRNA 介导的分子机制。为了评估 TDMD 事件,开发了 TDMDScore,这是一个计算框架,它结合了 miRNA 与其靶标之间的详细碱基配对结构,惩罚错配和空缺,并强调 miRNA 3′区域的互补性,这一特征已知能促进 TDMD。比较分析表明,TDMDScore 优于现有流程,恢复了之前报道的大部分 TDMD 相互作用,并识别了其他工具遗漏的候选者在 HEK293T 和 HeLa 细胞中使用 GFP 报告系统进行的实验验证提供了额外证据,预测的相互作用中有相当一部分在两种细胞类型中均显示 miRNA 丰度降低。为揭示其他类型的 RNA-RNA 相互作用,使用 rriScan 鉴定了约 210 万种 RNA-RNA 相互作用,并将这些结果整合到 RNA-RNA 模块中。利用该模块,发现snoRNA SNORA49 直接与 28S rRNA 相互作用,并通过实验验证了其在指导 28S rRNA 中两个修饰(RNA28SN2)中的作用。
除此之外,ENCORI 平台还提供了其他工具用于研究 RNA 相互作用组。例如,Degradome-RNA 模块被开发用于检测 miRNA 介导的切割事件,而 Pathway 模块则被创建用于研究 ENCORI 中已识别的 RNA 相互作用相关的生物学功能和通路。值得注意的是,RBP-disease 和 Pan-Cancer 这两个模块提供了用户友好的网络界面,以促进在人类疾病(包括癌症和罕见病)中探索各种 RNA 相互作用的病理功能。
与它的前身(starBase v2.0)和其他平台相比,ENCORI 显著扩展了数据覆盖范围、分析精度和功能能力。它整合了来自数千个 CLIP-seq 数据集的全面分析,通过 rbsSeeker 帮助识别超过 2600 万个高置信度 RBP 结合区域,而 rriScan、TDMDScore 和 RBP-MotifScan 等工具则能系统性地探索 RNA-RNA 相互作用、miRNA 降解和 RBP 结合基序。ENCORI 进一步整合了 Pan-Cancer 数据集、shRNA-RBP 筛选和 degradome-seq 分析,并提供应用编程接口(API)和可视化工具,为全面研究 ncRNA、mRNA 和 RBP 的调控作用和机制提供了资源。ENCORI 及其前身(starBase v2.0)已被用于支持实验室及全球研究人员的 RNA 机制研究,以进行功能和机制研究。
尽管 rbsSeeker、rriScan 和 ENCORI 在检测和整合 RBP-RNA 和 RNA-RNA 相互作用方面取得了显著进展,但仍存在一些局限性。推断相互作用的可靠性本质上受限于现有 CLIP-seq 和 RNA 相互作用数据集的质量、测序深度和协议特异性偏差,这可能阻碍对低丰度、瞬时或条件依赖性相互作用的检测。此外,ENCORI 整合的大多数数据集都是通过批量样本生成的,这限制了细胞类型特异性和空间组织 RNA 相互作用网络的分辨率。未来的工作将优先整合新兴的单细胞和空间 RNA 相互作用技术,以及结构和基于扰动的数据,以实现 RNA 调控网络的更全面和动态的建模。总体而言,ENCORI 及其计算工具为研究细胞 RNA 与 RBP 之间的复杂相互作用提供了一个全面的框架,并旨在广泛地服务于 RNA 研究界。
参考文献
[1] Zhou, K., Huang, J., Liu, S. et al. An encyclopedic regulatory and functional atlas of RNA interactomes. Nat Methods (2026). https://doi.org/10.1038/s41592-026-03105-x
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-19 15:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社