||
MirGeneDB 3.0:miRNA家族和序列数据库
在过去的5年里,在题目或摘要中引用microRNA的论文达到了55,000篇,比其他任何类型的非编码RNA都要多。然而,这些研究继续受到长期存在的问题的挑战,这些问题降低了公开可用的小RNA注释的准确性。先前的研究发现,公共数据库中记录的据称microRNA中有多达三分之二可能是假阳性,而且现有的命名方案往往不能反映许多重要microRNA家族的真实进化历史。这些错误阻碍了比较工作,并导致特定研究数据库的混乱。此外,它们限制了microRNA数据的力量和在生物科学的所有分支(从分类学和系统发育学到生物医学研究)中使用它们的研究的可重复性。
幸运的是,这些问题的出现并不是由于microRNA研究本身的固有问题,而是由于许多数据库只是对已发表文献中描述的microRNA进行了简单的分类,而没有对它们进行独立的整理。尽管手工审查声称的microRNA的过程是劳动密集型的,并且不能保证没有假阴性,特别是在组织特异性或低表达基因的情况下。它可以消除几乎所有的假阳性结果,显著提高microRNA数据的可靠性。为此,Fromm课题组在2015年建立了MirGeneDB,这是第一个可公开访问的手动管理的microRNA基因数据库。在下一代测序(NGS)microRNA注释标准的基础上进行扩展,建立了一套严格且一致的标准来注释跨物种的一组高置信度的microRNA。在过去的9年里,MirGeneDB的数据库从4个增长到45个,再到75个,包括从大约三分之二的动物门中提取的模型和非模型系统。这种精心整理的数据可以用于训练算法,仅从基因组中预测保守的microRNA,突出了MirGeneDB在比较基因组学和系统遗传学方面的价值和潜力。
尽管它有规律地扩展,但在先前版本的MirGeneDB中,无法完全捕捉到几个分支中microRNA进化的模式。此次更新增强了MirGeneDB(图1,https://mirgenedb.org/)的比较数据集,其中包括来自39个新物种的>5000个新基因和>200个新基因家族,主要来自无脊椎动物进化枝。在MirGeneDB 3.0中,总共可以浏览、搜索和比较来自114个动物物种的200,000个精确注释、一致命名和整理的microRNA基因。这些数据对于识别动物microRNA的结构和序列特征是有用的,其中有一些值得注意的异常值,对microRNA的预测和注释具有重要意义。MirGeneDB 3.0进一步提供了可下载的协方差模型(CM),并处理了所有物种的读取文件。为了解决目前缺乏命名新microRNA的机构的问题并提供功能参考,MirGeneDB3.0现在将承担命名至少在两种动物物种之间保守的新microRNA的责任。这种扩展和命名新基因和家族的努力将使MirGeneDB 3.0拥有更广泛的用户基础,并继续成为生物科学中动物microRNA注释的“黄金标准”。
图1 MirGeneDB 3.0数据库
参考文献
[1] Clarke AW, Høye E, Hembrom AA, Paynter VM, Vinther J, Wyrożemski Ł, Biryukova I, Formaggioni A, Ovchinnikov V, Herlyn H, Pierce A, Wu C, Aslanzadeh M, Cheneby J, Martinez P, Friedländer MR, Hovig E, Hackenberg M, Umu SU, Johansen M, Peterson KJ, Fromm B. MirGeneDB 3.0: improved taxonomic sampling, uniform nomenclature of novel conserved microRNA families and updated covariance models. Nucleic Acids Res. 2024 Nov 30:gkae1094. doi: 10.1093/nar/gkae1094.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-2 22:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社