||
值得关注的宝藏数据库:CNCB-NGDC
国家基因组学数据中心(NGDC)是中国国家生物信息中心(CNCB)的一部分,为全球学术界和工业界提供一系列数据库资源。随着多组学数据以前所未有的速度爆发式积累,CNCB-NGDC(图1)通过大数据归档、整合分析和增值策展,不断扩展和更新核心数据库资源。在过去的一年里,CNCB-NGDC致力于整合多个组学数据,综合不断增长的知识,开发新的资源,升级一套主要资源。特别是在传染病和微生物学(MPoxVR、KGCoV、ProPan)、癌症特征关联(ASCancer Atlas、TWAS Atlas、Brain Catalog、CCAS)以及热带植物(TCOD)方面新开发了几个数据库资源。重要的是,鉴于猴痘病毒和SARS-CoV-2对全球健康的威胁,CNCB-NGDC新构建了猴痘病毒资源,并频繁更新SARS-CoV-2基因组序列、变体和单倍型。所有的资源和服务都可以在https://ngdc.cncb.ac.cn上公开访问。
图1 CNCB-NGDC主页
国家基因组数据中心(NGDC)隶属于中国科学院北京基因组研究所(BIG)和中国生物信息中心(CNCB)。CNCB-NGDC自2019年成立以来,与中科院生物物理研究所、上海营养与健康研究所等两家机构合作,并与合作伙伴(https://ngdc.cncb.ac.cn/partners)共同建设。在过去几十年里,越来越多的大规模高通量测序项目在全球范围内进行,促进了对疾病遗传基础、遗传流行病学和公共卫生的理解。英国Biobank数据库收集了丰富的全基因组基因型数据,并能够对广泛的健康相关特征的遗传和流行病学关联进行基于人群的队列研究。这种大规模队列研究发现了新的生物标志物和药物靶点,极大地促进了疾病分子诊断和精准医疗。与此同时,单细胞测序技术得到了迅速发展,并被广泛应用于阐明细胞群体中的基因组、转录组、表观基因组和蛋白质组的性别特征,并以单细胞分辨率解开疾病的复杂机制。因此,大量的多组学数据以不断增长的速度和规模产生。因此,综合和共享如此海量的数据和知识对于全球范围内的广泛研究活动越来越重要。
在过去的时间里,CNCB-NGDC不断努力开发新的资源和更新相关资源,从而为全球生命和健康科学的发展提供了一系列资源的开放获取,特别是在猴痘疫情和COVID-19大流行的背景下,在整合、分析和更新病毒基因组序列、变体和单倍型方面,付出了大量的努力。重要的是,几个核心数据库资源已被主要出版商推荐,极大地加速了生物医学数据的高效沉积和开放共享。与此同时,除了与NCBI共享SARS-CoV-2基因组数据外,CNCB-NGDC还通过镜像NCBI SRA的元数据和序列数据INSDC建立密切合作。在这里,CNCB-NGDC的核心资源如图2所示。
图2 CNCB-NGDC核心数据库资源按数据库类别分类
随着多组学数据的爆炸式增长,CNCB-NGDC不断努力提供一套最新开发和更新的数据库资源,旨在接受数据提交,为全球研究界提供增值注释和策展知识。正在进行的工作包括但不限于数据提交、管理、集成和分析程序的自动化,大数据存储和传输的基础设施升级,以及帮助大数据分析的新工具和管道的开发。作为主要的全球中心之一,CNCB-NGDC将继续扩展并提供一系列数据资源和服务,以支持生命和健康科学领域广泛研究活动的知识发现。
参考文献
[1] CNCB-NGDC Members and Partners. Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2023. Nucleic Acids Res. 2023;51(D1):D18-D28. doi:10.1093/nar/gkac1073
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-17 19:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社