||
miRScore:一种快速精确的miRNA验证工具
微小 RNA(miRNA)是一类小分子非编码 RNA,它们在真核生物中调控基因表达。这种调控通常发生在 miRNA 被加载到 RNA 诱导沉默复合体(RISC)中,并与目标信使 RNA(mRNA)不完美碱基配对时。随后,RISC 通常作为核酸内切酶切割 mRNA 或以其他方式抑制其翻译。miRNA 对 mRNA 的调控在各种生物学过程中至关重要,例如植物和动物的发育时间、代谢和防御通路。尽管miRNA的生物合成在动物和植物之间存在一些差异,但 miRNA 结构和功能的基本方面是保守的。在植物和动物中,miRNA前体通常由 RNA 聚合酶 II 从内源性 MIRNA 基因转录而来。虽然许多 MIRNA 初级转录本从基因间区作为独立基因转录,但有些是从蛋白质编码 mRNA 的内含子中加工而来的。转录产生一个含有发夹结构的较长单链 RNA,称为初级 miRNA(pri-miRNA)。 位于初级转录本中的发夹结构随后通过连续的核酸酶活性(动物中的 Drosha 和 Dicer,或植物中的一种 Dicer 样蛋白)进行加工,以释放出 miRNA 双链体。miRNA 双链体是一种双链 RNA,通常含有少数错配和/或凸起的核苷酸,由成熟的功能链(miRNA)和乘客链(miRNA*)组成。双链体解开,单链的成熟 miRNA 与 Argonaute 蛋白结合形成 RISC。通常情况下,双链体中的一条链被整合到 RISC 中并调控 mRNA。在某些情况下,miRNA 双链体的两条链分别与不同的 RISC 结合,并具有两种不同的 mRNA 靶点组合。
深度小 RNA 测序(sRNA-seq)数据与参考基因组进行比对是 miRNA 注释和定量的一种常用方法。已开发出多种工具,如 ShortStack、miRador、miRDeep和 miRDeep-P2,利用 sRNA-seq 数据注释 miRNA 和其他小 RNA。这些工具通常通过将 sRNA-seq 数据与参考基因组比对,然后评估潜在的 miRNA 编码位点(MIRNA)来工作。候选 MIRNAs 的一种识别方式是通过 miRNA/miRNA*双链读数的独特比对模式与发夹前体进行比对。sRNA-seq 中的 miRNA 和 miRNA*读数与一条基因组链,因为它们的先体是单链转录本。这些读段彼此靠近对齐,形成两个不同的读段覆盖“堆叠”。miRNA 初级转录本通常是短命的,难以使用 sRNA-seq 或常规 mRNA-seq 检测。因此,大多数以 sRNA-seq 为中心的 miRNA 鉴定工具注释包含茎环区域和预定长度的一些相邻序列的“发夹”序列。这些注释的起始和终止位置不一定与实际初级转录本的端点相对应。然后预测这个推定的发夹先体的二级结构。对于真正的 miRNA,推定的先体 RNA 的预测二级结构是一个不完美的茎环。此外,在预测的茎环的相反臂上发现来自 miRNA 和 miRNA*的对齐 sRNA-seq 读段堆叠,并具有诊断性的两个核苷酸的 3’-悬突。通常,具有最丰富读段集的序列被称为“成熟的”miRNA,而读段较少的序列是“星”序列。检测 miRNA 双链体两端的 reads 是确认预测双链体的必要条件。因此,使用 sRNA-seq 鉴定候选 MIRNAs 依赖于在假定前体的预测 RNA 二级结构背景下对 reads 对齐模式的经验评估。
通过深度测序数据鉴定 miRNA存在一些挑战。其中之一是多映射读段的处理,即单个读段存在多个最佳评分的比对。由于读段长度较短以及相同 miRNA 可能由同源基因座编码,这种情况在 sRNA-seq 数据中经常发生。另一个挑战是区分真正的 miRNA与其他 sRNA 类别,如短干扰 RNA(siRNA),它们具有独特的比对模式和标准。每种 miRNA发现工具都采用不同的方法来处理这些挑战,在植物和动物中鉴定新型 miRNA的性能各不相同。由于缺乏对定义明确的 miRNA标准的统一实施,加上从噪声或其他 sRNA 种类中通过计算方法区分 miRNA 的挑战性,导致对现有 miRNA注释的整体质量信心逐渐减弱。
为了提高注释质量,人们已经付出了相当大的努力来定义 miRNA 标准。一些 miRNA 数据库包含大量假阳性注释。例如,miRBase 依赖于研究人员和同行评审员在提交前评估 miRNA 的有效性,并采用了确定这些基于社区注释的置信度的方法。miRBase 当前版本(V. 22.1)包含来自 271 个不同物种(包括动物、植物和一些原生生物)的超过 48,000 条成熟 miRNA 序列。MirGeneDB 采取了不同的方法,通过结构、表达和保守性分析手动整理后生动物的 miRNA 注释。无论是数据库管理员还是研究社区,新 miRNA 的评估都依赖于一定程度的手动检查和评估。然而,对传入注释的手动检查需要大量工作,并且目前缺乏标准化的实施。
尽管目前有许多 de novo miRNA 注释工具和 miRNA 数据库,但在全基因组 sRNA 注释后,用于快速分析新注释和已注释 MIRNA的二次分析方法并不存在。这样一个能够快速检查新注释的工具,对于数据库管理员来说将非常有用,因为它可以省去对新增提交进行耗时的人工检查。一种标准化的快速自动验证新 MIRNA 注释的方法将提高已发布和随后提交到在线存储库的注释质量。这种方法的回顾性应用还可以用于标记和移除 miRBase 等存储库中的问题条目。为了满足这一需求,Vanek等人开发了 miRScore(图1,https://github.com/Aez35/miRScore)——一个快速且精确的 miRNA 验证工具。miRScore 能够利用植物和动物中广泛接受的 MIRNA 标准,快速评估现有和新型 miRNA 相对于特定 sRNA-seq 数据集的注释情况。它提供对 MIRNA 位点的全面评估,分析每个标准,并生成发夹二级结构和表达模式的可视化图像。

图1 miRScore 工作流程和输入。(A) miRScore 设计用于 miRNA 分析工作流程中的 MIRNA 注释。(B) 描述 miRScore 进行 miRNA 分析输入和步骤的流程图。(C) 输入 FASTA 文件序列的合适命名示例。MIRNA 发夹标识符(ath-MIR399a)必须与成熟 miRNA 序列标识符(ath-miR399a)匹配;然而,miRNA*(ath-miR399a*)必须具有一个能将其与文件内成熟 miRNA 序列区分开来的标识符
参考文献
[1] Vanek A, Griffiths-Jones S, Meyers BC, Shahid S, Axtell MJ (2025) miRScore: A rapid and precise microRNA validation tool. PLoS Comput Biol 21(11): e1013663. https://doi.org/10.1371/journal.pcbi.1013663
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-13 14:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社