zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

PymiRa:一种快速准确的小非编码 RNA 分类工具

已有 782 次阅读 2026-4-26 17:48 |个人分类:科普|系统分类:科普集锦

PymiRa:一种快速准确的小非编码 RNA 分类工具 

从测序数据中鉴定小非编码 RNAsncRNA)是一项日益重要的生物信息学任务。sncRNA 在调节细胞过程和调控基因表达中具有重要作用。一类被充分表征的 sncRNA 是微小 RNAmiRNA),它们是基因表达的关键转录后调节因子;其失调与癌症和心血管疾病等病理状态相关。miRNA 作为诊断或预后分子的潜力使其成为引人注目的生物标志物候选者,因此它们成为大量研究兴趣的焦点。因此,能够快速准确地鉴定和定量 sncRNA 以进行差异表达分析的可用工具的需求日益增长。 

一种从下一代测序(NGS)数据中鉴定 miRNA 的常用方法是将短测序读段与整个人类基因组(全基因组比对)进行比对,这项任务在内存和处理能力方面都需要大量的计算资源。随着测序实验变得越来越普遍,注释的小 RNA 数据库已被汇编成中央化资源供研究人员使用。一个例子是 miRBasehttps://www.mirbase.org/),这是一个公共数据库和注册中心,用于存储来自多个生物体的 miRNA 序列。因此,全基因组比对的一种替代方法是直接将推定的 miRNA 序列与例如 miRBase 数据库进行比对,这种方法在处理、存储和时间方面需要的计算资源更少。这种方法的一个成功例子是 Chimira,它利用动态规划将 sncRNA 与前体序列进行比对,并显示出比其他比对整个基因组工具的速度和计算优势。然而不幸的是,Chimira 目前不受支持且无法向公众提供。 

Burrows-Wheeler 变换(BWT)已被广泛应用于许多流行的序列比对工具中,例如 Burrows-Wheeler 比对器(BWA)和 Bowtie2BWT 的无损压缩方法与 Ferragina-Manzini 索引(FM-index)的结合,为索引和搜索整个基因组创造了一种内存高效的方法。通过使用逆向搜索,这些算法能够高效地将测序读段与参考序列(基因组)进行比对,同时考虑错配,使其非常适合比对短读段。然而,比对 miRNA 可能具有挑战性,需要灵活性针对后续序列修饰的特定 3'区域。通常,这些修饰通过作用于 RNA 的腺苷脱氨酶(ADAR)编辑转录本以及其他通常发生在 3'端的转录后修饰(如 TUTase 酶的末端尿苷化)发生。为了有效,对齐工具需要能够准确考虑这些修饰。 

最近,Scurlock等人开发了一种名为“PymiRa”(图1https://www.pymira.co.ukhttps://github.com/ZScurlock/PymiRa)的快速、稳健且易于使用的序列比对工具,用于 miRNA 的鉴定和定量,其基于 BWT 算法,用 Python 编写。该比对工具输入一个测序文件(FASTA/FASTQ.gz),通过将文件与 miRBase 衍生而来的物种特异性 miRNA 发夹结构 FASTA 文件进行比对,从而鉴定和定量 miRNAmiRBase 包含前体发夹序列,成熟的 miRNA 由此加工而来。PymiRa 允许在读取的 3'端最多存在两个错配,这与其他 miRNA 比对方法中的良好实践一致。然而,PymiRa 也提供了用于鉴定其他 sncRNA 类别的实用性,例如,通过允许更改比对参考数据库,为从测序实验中鉴定 sncRNA 表达的完整图景提供了一种快速且一致的方法。 

image.png  1 PymiRa在线工具 

为了评估 PymiRa RNA 测序数据中准确识别和量化成熟 miRNA 的能力,它在与常用的 aligner Bowtie2Chimira miRDeep2 一同测试下,被应用于模拟和真实的生物数据集。 

参考文献

[1] Scurlock ZGL, Scarpini CG, Coleman N, Murray MJ, Enright AJ (2026) PymiRa: A rapid and accurate classification tool for small non-coding RNAs, including microRNAs. PLoS Comput Biol 22(3): e1014114. https://doi.org/10.1371/journal.pcbi.1014114 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1532201.html

上一篇:扩展生物信息学:迈向从数据到理论的范式转变
下一篇:CHARM:通过单细胞四组学测序解析基因调控图谱
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-4-28 19:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部