||
数据库对理解lncRNA的贡献
长链非编码RNA (lncRNA)是一类超过200个核苷酸的RNA分子,没有或有限的编码能力。广泛的研究已经在一系列物种中鉴定和表征了lncRNA,表明lncRNA基因超过了蛋白质编码基因的数量,在疾病、体内平衡和应激反应中具有至关重要的调节作用。因此,从许多物种积累了大量的lncRNA相关组学数据,增加了对lncRNA的全面整理和高质量注释的需求,扩大了我们对lncRNA与多种疾病、性状和表型关联的认识。
最近,人们为建立不同的lncRNA数据库做出了宝贵的努力,这些数据库共同构成了科学界的基础设施。
全球lncRNA数据库概述
到目前为止,已经确定了136个lncRNA数据库,这些数据库由83个机构开发和维护,并与268个科学出版物相关。Database Commons中管理的lncRNA数据库的完整列表可在https://ngdc.cncb.ac.cn/databasecommons/database/tag/lncrna 上公开获取。
根据数据库内容,这136个lncRNA数据库分为三大类(一个数据库可能属于多个数据库):识别与集成(34个数据库)、组学表征(93个数据库)和知识关联(40个数据库)。
识别和集成
lncRNA的识别是了解其多样性和功能的第一个基本步骤。总共有13个数据库专门用于人类lncRNA鉴定和来自不同来源的数据集成,12个用于动物,11个用于植物,1个用于寄生虫。
其中,以人类为例,以识别精确的lncRNA亚型为目的,GENCODE采用捕获长测序技术和人工监督自动注释的方式,迄今收集了约20,000个基因。为了可靠地识别lncRNA, CHESS通过采用严格的计算机标准过滤掉“嘈杂的”转录本,对近18,000个基因进行了编目。为了确定全长lncRNA, FANTOM CAT使用基因表达的cap分析,迄今为止已获得约28,000个lncRNA基因,BIGTranscriptome使用高性能组装管道,迄今已生成近15,000个基因。利用大量癌症和正常组织样本,MiTranscriptome通过无偏转录组重建,迄今已鉴定出约64,000个稳健转录(高于背景噪声水平)的lncRNA基因,其中79%是新鉴定的lncRNAs。
显然,由于不同的确定标准、测序方案和使用的样品,获得完整的lncRNA目录是具有挑战性的。因此,整合不同来源lncRNA的数据库已经被开发出来。NONCODE和LNCipedia整合了文献和其他数据库中的lncRNA,分别容纳了超过96,000和近50,000个人类lncRNA基因。LncBook以严格的标准整合了来自8个来源的人类lncRNA,并分配了超过95,000个基因。在相似的基因数量下,LncBook比NONCODE拥有更多的转录本(超过17.3万个)。RNAcentral基于18个数据库提供了近428,000个人类lncRNA的转录中心注释(以及其他物种的近1,410,000个lncRNA), GeneCaRNA通过整合RNAcentral和其他资源提供了超过131,000个人类lncRNA基因的转录中心注释。
与此同时,HGNC和VGNC在制定lncRNA命名指南,分配独特的基因符号和名称以及策划别名方面做出了特别的努力。
组学特征
大多数lncRNA是否是没有生物学功能的转录“噪音”是一个长期存在的争论,解决这个问题需要广泛的组学表征。
lncRNA的动态表达谱已经在不同的数据库中被研究,例如TANRIC、MiTranscriptome和RefLnc的癌症样本。利用exoRBase提取人体各种体液中的细胞外囊泡;LncATLAS和RNALocate的亚细胞成分;Dynamic-BM的发展过程。相比之下,LncExpDB评估了lncRNA基因在不同生物学背景下的表达能力,从而提供了人类lncRNA的全面表达谱和共表达网络。
对于lncRNA介导的调控相互作用和相关靶点,starBase/ENCORI使用大规模CLIP-seq(交联和免疫沉淀后测序)数据系统地鉴定了lncRNA-RNA和lncRNA-蛋白的相互作用。NPInter使用iMARGI (RNA-基因组相互作用组原位作图)、ChAR-seq(染色质相关RNA测序)和GRID-seq(深度测序的全局RNA与DNA相互作用)确定lncRNA - DNA相互作用,并使用CLIP-seq数据确定lncRNA-RNA和lncRNA-蛋白质相互作用。RNAInter全面整合交互计算置信度分数。超过20个数据库包含lncRNA-microRNA相互作用数据(例如,DIANA-LncBase)或lncRNA竞争内源性RNA网络(例如,LncACTdb和PceRBase)。尽管有这些数据,大多数lncRNA的具体活性仍不清楚。
此外,lncRNA相关的单核苷酸多态性、其他遗传变异、表观遗传修饰、编码肽、表达数量性状位点(eQTL)和保守特征已通过不同的数据库进行了表征。通过各种组学数据,LncBook提供了人类lncRNA的功能证据,包括序列保守、表达模式、疾病相关DNA甲基化、疾病相关或性状相关变异、lncRNA-蛋白相互作用和编码肽。LncSEA通过将lncRNA与甲基化模式、蛋白质结合、eQTL、染色质可及性、外泌体和其他特征联系起来来表征lncRNA。
知识关联
随着越来越多的lncRNA被实验研究,lncRNA相关疾病、性状和表型的知识在许多物种中积累,产生了几个综合这些知识关联的数据库。LncRNADisease包括超过10,000个实验支持的lncRNA疾病关联和195,000个预测的lncRNA疾病关联,涵盖500多种疾病。Lnc2Cancer包含了超过200种人类癌症亚型的10,000多个lncRNA-癌症关联。值得注意的是,这两个数据库还将环状RNA作为一组特定的lncRNA进行了覆盖。LncRNAWiki和EVLncRNAs系统地整理实验验证的与疾病、性状和功能相关的lncRNAs。此外,GeneCaRNA在GeneCards Suite中提供了超过170个数据源的关联。
未来的挑战与机遇
所有的lncRNA数据库都提供了有价值的数据,但是在全面编目lncRNA方面存在挑战和机遇。
首先,随着lncRNA的大规模全基因组捕获,lncRNA和/或新检测到的转录物的识别和整合变得更加频繁和必要。因此,为了建立不同物种的lncRNA参考文献,自动化集成的流线型工具是可取的。
其次,考虑到已知功能的lncRNA数量有限,应该更多地致力于lncRNA的多方面表征,包括进化保守性、整体和单细胞尺度的表达、表观遗传修饰、编码的小肽、转座元件的发生、二级和三级结构以及与染色质的相互作用。
第三,考虑到lncRNA的分子特征与mRNA特征重叠,并且一个基因可以编码编码转录本和非编码转录本,将基因严格划分为蛋白质编码或非编码可能会使命名和功能注释复杂化,从而更好地协调基因分配。
因此,需要全球合作来统一lncRNA鉴定、表征和关联的努力和标准,以建立完整的lncRNA世界。
参考文献
[1] Ma L, Zhang Z. The contribution of databases towards understanding the universe of long non-coding RNAs. Nat Rev Mol Cell Biol. 2023 Sep;24(9):601-602. doi: 10.1038/s41580-023-00612-z.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 07:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社