NiuXiangna的个人博客分享 http://blog.sciencenet.cn/u/NiuXiangna

博文

NCBI Assembly数据库使用指南:轻松下载组装基因组

已有 1471 次阅读 2025-11-4 11:48 |系统分类:科研笔记

在微生物组学与病原生物学研究飞速发展的今天,获取高质量的细菌基因组数据是每一项重要发现的起点。无论是溯源分析、比较基因组学、疫苗设计还是耐药性研究,第一步总是:“数据从哪里来?又如何高效下载?”而全球学者公认的数据宝库,就是NCBI

面对NCBI庞大而复杂的网站,许多初学者可能会感到困惑。别担心,本文将作为您的终极指南,一步步带您找到并下载所需的基因组数据。

第一步:明确您的目标——您需要哪种类型的数据?​

这是最关键的一步,决定了您要访问NCBI的哪个子数据库。主要分为两类:

1. 组装完成的基因组(Assembled Genome):

格式:通常是 .fna(FASTA格式的核酸序列), .gff(注释文件), .gbff(GenBank格式文件) 等。

用途:适用于基因注释分析、比较基因组学、系统发育分析、PCR引物设计等。

下载来源:Assembly数据库。

2. 原始测序数据(Raw Sequencing Data):

格式:fastq文件(包含测序读段和碱基质量信息)。

用途:适用于重分析、从头组装、变异鉴定(SNP/Indel)等。

下载来源:SRA (Sequence Read Archive)数据库。

本文将重点介绍最常使用的Assembly数据库的下载方法。

​​

第二步:前往NCBI Assembly数据库并搜索​​

1. 打开NCBI Assembly数据库:https://www.ncbi.nlm.nih.gov/datasets/genome/

2. 在搜索框中输入目标生物的拉丁学名(例如:Mycobacterium tuberculosis),点击 Search

 

第三步:筛选和选择所需基因组​​

搜索后会得到一个列表页面,这里提供了强大的筛选工具。

利用筛选器(Filters):您可以根据“组装水平”(Assembly level)进行筛选,例如选择“Complete Genome”以下载最完整的参考基因组。还可以根据“注释状态”、“发布日期”、“物种”等条件细化结果。

查看详情:点击您感兴趣的基因组名称(如:ASM19595v2)进入其摘要页面。这个页面包含了所有关键信息:物种名、菌株、生物项目、提交者、组装质量指标(如N50)等。

务必仔细检查这些元数据,确保它符合您的研究需求。​​

 

第四步:下载基因组文件​

进入特定基因组的摘要页面后,下载区域通常在页面左上角。

1. 找到“Download”按钮并点击。

2. 在下拉菜单中,您会看到几种选项:

FASTA仅下载基因组序列文件(.fna)。

GenBank下载包含序列和注释信息的标准GenBank格式文件(.gbff)。这是最常用的格式之一。

GFF下载仅包含注释信息的GFF3文件(.gff),可用于在软件中可视化基因结构。

所有文件(All files):下载NCBI提供的该基因组所有相关文件的压缩包(通常是.tar.gz格式)。这是最推荐的方式,一站式获取全部数据。

3. 点击您需要的格式,浏览器将开始下载压缩文件。解压后即可获得您需要的基因组文件。

 

高级技巧与替代方案​​

使用FTP进行批量下载:如果您需要下载多个基因组,使用浏览器可能很慢。摘要页面提供了FTP链接,您可以复制此链接,使用wgetcurlFTP客户端(如FileZilla)进行高速、稳定的批量下载。

下载原始数据(SRA数据):如果需要从SRA数据库下载原始fastq文件,您需要使用NCBI提供的专用工具SRA Toolkit。其中的prefetchfasterq-dump命令是下载和转换SRA格式文件的标准流程。

更纯净的参考序列:RefSeq数据库,在Assembly数据库中,您可能会注意到编号以GCF_开头(RefSeq)和GCA_开头(GenBank)的版本。RefSeqNCBI经过进一步人工 curation(审编)的非冗余数据集,通常质量更高、更标准,是作为参考基因组的首选。

· 密码子·生信云平台 细菌基因组下载(基于GCA/GCF)小工具http://cloud2.mimazi.net:9001/tool/article-204.html),可用于批量从NCBI FTP服务器直接下载基因组序列和注释文件,支持下载FASTA序列、GFF注释、GenBank格式等多种文件类型

 

密码子·生信云平台优势

·零门槛体验:无需本地安装Linux环境,无需复杂配置,打开网页即可一键上传数据,轻松运行批量下载所需基因组和注释。

·高效安全:云端计算资源强大,数据处理速度快,保障数据安全与隐私。

·友好界面:操作界面简洁直观,适合各类用户,无需编程基础。

·专业支持:提供详细的操作指南和技术支持,助力您的科研工作顺利进行。

 

小工具用法:

输入文件:

纯文本文件,每行一个Accession编号,必须以GCF_(RefSeq)GCA_(GenBank)开头,并且包含版本号(如.1, .2等),文件名中禁止包含空格或中文字符,推荐文件名中仅包含字母/数字/下划线,如:list.txt

小工具结果:

IMG_256



https://blog.sciencenet.cn/blog-3447233-1508822.html

上一篇:肺炎克雷伯菌的分型和克隆传播
收藏 IP: 183.193.236.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-6 04:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部