||
PymiRa:一种快速准确的小非编码 RNA 分类工具
从测序数据中鉴定小非编码 RNA(sncRNA)是一项日益重要的生物信息学任务。sncRNA 在调节细胞过程和调控基因表达中具有重要作用。一类被充分表征的 sncRNA 是微小 RNA(miRNA),它们是基因表达的关键转录后调节因子;其失调与癌症和心血管疾病等病理状态相关。miRNA 作为诊断或预后分子的潜力使其成为引人注目的生物标志物候选者,因此它们成为大量研究兴趣的焦点。因此,能够快速准确地鉴定和定量 sncRNA 以进行差异表达分析的可用工具的需求日益增长。
一种从下一代测序(NGS)数据中鉴定 miRNA 的常用方法是将短测序读段与整个人类基因组(‘全基因组比对’)进行比对,这项任务在内存和处理能力方面都需要大量的计算资源。随着测序实验变得越来越普遍,注释的小 RNA 数据库已被汇编成中央化资源供研究人员使用。一个例子是 miRBase(https://www.mirbase.org/),这是一个公共数据库和注册中心,用于存储来自多个生物体的 miRNA 序列。因此,全基因组比对的一种替代方法是直接将推定的 miRNA 序列与例如 miRBase 数据库进行比对,这种方法在处理、存储和时间方面需要的计算资源更少。这种方法的一个成功例子是 Chimira,它利用动态规划将 sncRNA 与前体序列进行比对,并显示出比其他比对整个基因组工具的速度和计算优势。然而不幸的是,Chimira 目前不受支持且无法向公众提供。
Burrows-Wheeler 变换(BWT)已被广泛应用于许多流行的序列比对工具中,例如 Burrows-Wheeler 比对器(BWA)和 Bowtie2。BWT 的无损压缩方法与 Ferragina-Manzini 索引(FM-index)的结合,为索引和搜索整个基因组创造了一种内存高效的方法。通过使用逆向搜索,这些算法能够高效地将测序读段与参考序列(基因组)进行比对,同时考虑错配,使其非常适合比对短读段。然而,比对 miRNA 可能具有挑战性,需要灵活性针对后续序列修饰的特定 3'区域。通常,这些修饰通过作用于 RNA 的腺苷脱氨酶(ADAR)编辑转录本以及其他通常发生在 3'端的转录后修饰(如 TUTase 酶的末端尿苷化)发生。为了有效,对齐工具需要能够准确考虑这些修饰。
最近,Scurlock等人开发了一种名为“PymiRa”(图1,https://www.pymira.co.uk和https://github.com/ZScurlock/PymiRa)的快速、稳健且易于使用的序列比对工具,用于 miRNA 的鉴定和定量,其基于 BWT 算法,用 Python 编写。该比对工具输入一个测序文件(FASTA/FASTQ.gz),通过将文件与 miRBase 衍生而来的物种特异性 miRNA 发夹结构 FASTA 文件进行比对,从而鉴定和定量 miRNA。miRBase 包含前体发夹序列,成熟的 miRNA 由此加工而来。PymiRa 允许在读取的 3'端最多存在两个错配,这与其他 miRNA 比对方法中的良好实践一致。然而,PymiRa 也提供了用于鉴定其他 sncRNA 类别的实用性,例如,通过允许更改比对参考数据库,为从测序实验中鉴定 sncRNA 表达的完整图景提供了一种快速且一致的方法。
图1 PymiRa在线工具
为了评估 PymiRa 在 RNA 测序数据中准确识别和量化成熟 miRNA 的能力,它在与常用的 aligner Bowtie2、Chimira 和 miRDeep2 一同测试下,被应用于模拟和真实的生物数据集。
参考文献
[1] Scurlock ZGL, Scarpini CG, Coleman N, Murray MJ, Enright AJ (2026) PymiRa: A rapid and accurate classification tool for small non-coding RNAs, including microRNAs. PLoS Comput Biol 22(3): e1014114. https://doi.org/10.1371/journal.pcbi.1014114
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-28 19:04
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社