zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

miRNA序列与表达谱数据库

已有 6027 次阅读 2021-9-28 09:29 |个人分类:科普|系统分类:科普集锦

写在前面

基因序列和基因表达谱是研究miRNA的两大数据类型。对于miRNA序列数据库而言,miRBase一家独大;对于miRNA表达谱数据,主要有GEOArrayExpressTCGANGDC四个数据库。

 

01

miRBase

如果要从基因序列层次水平研究miRNA,就得下载miRNA序列数据。要想获得miRNA序列数据,miRBase当然是首选(https://www.mirbase.org/,图1)。目前,miRBase最新版本是201810月发布的Version 22.1。从时间看,已有接近3年没有更新了。不知道是不是相关物种的miRNA测序已经结束还是足够了。

 

miRBase提供了31个物种miRNA序列数据下载。它不仅提供成熟miRNA序列数据下载,而且还提供非成熟miRNA(即miRNA hairpins)序列数据下载。

7149e60753aae72fb6bd9dfc146b379.png

1 miRBase主页

 

02

GEO

GEOGene Expression Omnibushttps://www.ncbi.nlm.nih.gov/geo/,图2)数据库隶属于NCBI,是专门存储基因表达谱的仓库。各种测序技术产生的miRNA表达谱数据,都可以在GEO数据库中找到。目前,GEO数据库收集有4,348个数据集,包含4,630,424个样本。GEO数据库提供了友好的搜索界面,用户可以根据需要搜索相关数据集。例如,现在我们关注miRNA,就可以专注“Non-coding RNA profiling by high throughput sequencing”相关的数据集。

1db17488bd9b93ca72a3942eebaf42a.png

2 GEO主页

 

03

ArrayExpress

ArrayExpresshttp://www.ebi.ac.uk/arrayexpress,图3)隶属于EMBL-EBI数据库,专门存储基因表达谱的仓库。目前,ArrayExpress数据库收集有74,786个实验数据,包含2,558,838个样本。202010月已经搬迁至BioStudieshttps://www.ebi.ac.uk/biostudies/,图4)。BioStudies以研究为单元,围绕研究收集所有相关数据。

088fa152f4b5d08bf2edf5c1c8c541e.png

3 ArrayExpress主页

 

c8a3c42e9c61e85c1e658aafc5a1b6d.png

4 BioStudies主页

 

04

TCGA

TCGAThe Cancer Genome Atlashttps://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga,图5)是国际癌症和肿瘤基因图谱计划衍生的数据库。在分子层次,TCGA33种癌症类型的20,000多个主要癌症和正常样本进行了基因测序。这个数据库为研究人类恶性肿瘤疾病提供了丰富的测序数据(包括miRNA表达谱、基因表达谱、DNA甲基化、体突变数据、拷贝数等)。为了下载TCGA数据,很多软件工具也被开发了出来,例如R工具包TCGAbiolinkshttps://bioconductor.org/packages/TCGAbiolinks/)和TCGA-Assemblerhttp://www.compgenome.org/TCGA-Assembler/)。

9c30c6fe5f3b55d888b6dbb34cde77c.png

5 TCGA主页

 

05

NGDC

NGDCNational Genomics Data Centerhttps://ngdc.cncb.ac.cn/,图6)是国家基因组科学数据中心,隶属于国家生物信息中心(China National Center for Bioinformation,简称CNCBhttps://www.cncb.ac.cn/,图7)。紧跟国际步伐,在基因组(编码和非编码RNA)领域,终于有了国产数据库了。值得注意的是,NGDC数据库中数据资源所对应的文献还有专门数据库OpenLBOpen Library of Bioscience https://ngdc.cncb.ac.cn/openlb/home,图8

fe58a795ae0c1027b598c0d2b72ee2e.png

6 NGDC主页

 

8c91084f87fb1707c24ec64de7d266e.png

7 CNCB主页

 

5b88e9df69bed3f6439e64b7a079519.png

8 OpenLB主页

 

后话

你挖还是不挖,那些数据都在那里,只增不减!数据只会越来越多,但数据越多,并不一定代表越好。作为普通大众,最好根据研究对象和研究问题,寻找合适自己课题组的数据来验证提出的想法。

 

参考链接:

[1] https://www.mirbase.org/

[2] https://www.ncbi.nlm.nih.gov/geo/

[3] http://www.ebi.ac.uk/arrayexpress

[4] https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

[5] https://ngdc.cncb.ac.cn/

 

更多背景知识如下:

1. miRNA是何方神圣?

2. What?植物miRNA能够调控动物靶基因?

3. miRNA也走非主流路线!

4. Tools4miRs:只为miRNA分析

 

号外,ceRNA可是miRNA介导的哦。为了便于交流,我们为miRNA介导的ceRNA研究在Frontiers in Molecular Biosciences杂志( 2020_IF = 5.246)整了个专刊,主题为“Computational Identification of ceRNA Regulation”。投稿链接:https://www.frontiersin.org/research-topics/24340/

9dc73e72bedd62e613d181b21edb87c.png

1795e0496d46dc4f9d57f6af6c282df.png



https://blog.sciencenet.cn/blog-571917-1305963.html

上一篇:专利数据库推荐一波!
下一篇:miRNA有个DIANA系列!
收藏 IP: 112.114.211.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 21:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部