lyao222lll的个人博客分享 http://blog.sciencenet.cn/u/lyao222lll

博文

QUAST在评估基因组组装质量中的使用简介

已有 4147 次阅读 2019-2-24 18:33 |个人分类:Software/Pipeline/Script|系统分类:科研笔记| _基因组评估, _生信工具

QUAST在评估基因组组装质量中的使用简介

 

在得到组装好的基因组序列之后,首先要做的就是使用多种方法来对组装结果的质量进行评估。这里介绍一款可用于基因组组装质量评估的软件,QUAST

输入基因组fasta文件,QUAST可直接统计fasta文件中的序列长度、GC含量、N50等指标,提供组装结果的基本信息。若在评估时额外输入另一个已存在的参考基因组,这时除了统计基本指标外,还会将组装结果与参考序列进行比较,包括长度、GC含量、对齐程度等,为基因组的组装质量评估提供更多的参考内容。除了单物种基因组外,QUAST还适用于评估宏基因组的组装结果。在本文,使用一个例子简单介绍其在单物种基因组组装评估中的使用及结果说明。

以上是QUAST最基本的功能。关于QUAST更多高级的功能,如读取bam比对文件,执行SV检测等,本文不再阐述(因本人也没测试过……)。

 

QUAST官方网站:http://quast.bioinf.spbau.ru

QUAST的在线网站中,我们可以上传自己的基因组序列进行在线评估。当然,对上传基因组大小是有一定限制的(<100Mb),且可选参数较少。不过一般情况下,对于小基因组基本可以满足需求。

官方网站中同样给出了报告示例等以供查看,此处不多说。

1.png 

 

本文更主要介绍QUAST的本地配置及运行。

对于QUAST的本地使用,可主要参见其在线手册(包含安装说明、参数说明、输出结果说明及常见问题等):http://quast.bioinf.spbau.ru/manual.html

 

本文中的测试数据以及结果示例等的百度盘链接如下,均无提取码。

基因组组装草图fasta测试数据,以及参考基因组序列文件等:https://pan.baidu.com/s/1yYQNxty5hBdcpoA8xkrQUg

QUAST结果文件示例:https://pan.baidu.com/s/1u7JBUPe1WLiSUHiYqK9eUg

 


QUAST下载安装


Linux系统下,可以源码编译QUAST,也可直接使用conda安装QUAST

 

一,因QUAST已打包在conda中,因此可直接使用conda安装,环境自动配置,方便快捷。

conda install quast

 

二,根据在线手册中安装说明,确保所需的环境配置好后,源码编译。记得手动添加环境变量。

wget https://downloads.sourceforge.net/project/quast/quast-5.0.2.tar.gz
tar -xzf quast-5.0.2.tar.gz
cd quast-5.0.2
chmod +x setup.py && ./setup.py install

 


QUAST使用示例


首先查看QUAST参数说明。

quast -h

2.png

参数挺多的,不一一介绍了(毕竟好多功能我也没用过......),可参见QUAST手册中的说明http://quast.bioinf.spbau.ru/manual.html

一般情况下,只使用QUAST的基本功能,即简单统计序列长度、GC含量、N50等基本信息用来评估组装质量的话,使用默认参数即可,无需设置高级的参数。

 

如下示例,直接评估组装结果fasta文件中的基因组序列。

输入组装草图文件,本示例使用网盘附件中的组装草图“Bacillus_subtilis.scaffolds.fasta”;程序运行线程数4;输出路径“quast_norefer”,程序运行完毕后可在该路径中查看结果。

quast -o ./quast_norefer -t 4 ./Bacillus_subtilis.scaffolds.fasta

 

若对于测序物种来讲,已经存在了参考基因组序列,则可额外指定一参考基因组fasta序列文件、gff注释文件等,作为“有参评估”以更方便查看组装质量。

输入组装草图文件,本示例使用网盘附件中的组装草图“Bacillus_subtilis.scaffolds.fasta”;指定参考基因组文件,如本示例使用网盘附件中的“Bacillus_subtilis.str168.fasta/gff”;程序运行线程数4;输出路径“quast_refer”,程序运行完毕后可在该路径中查看结果。

quast -o ./quast_refer -R Bacillus_subtilis.str168.fasta -G Bacillus_subtilis.str168.gff -t 4 ./Bacillus_subtilis.scaffolds.fasta

 


QUAST主要结果说明


对于上述示例QUAST程序的运行结果,可分别参见网盘附件“quast_norefer”、“quast_refer”。在每个结果文件夹中,均包含了多个文件,我们可主要查看其中的网页版报告即可,该报告中整合了几乎所有的评估统计结果,便于快速浏览。推荐点击“icarus.html”查看,其为导航页面,更便于查看更多结果。结果文件夹中的其余各文件此处不再细说。

QUAST手册(http://quast.bioinf.spbau.ru/manual.html)中,有对结果报告的详细说明。以下为简要描述性导读。

方便起见,下述将直接输入基因组草图fasta文件的QUAST评估结果称为“无参评估”,输入基因组草图fasta文件的同时额外加入一参考基因组序列文件的评估结果称为“有参评估”

 

“无参评估”


点击“icarus.html”后,在目录页点击“QUAST report”,即可查看评估结果的基本统计内容。

3.png

新界面(即链接至结果文件夹中的“report.html”)中的主要内容包括了组装结果的基本信息,如拼接后的序列总数、序列长度、GC含量、N50、长度累积曲线等。

各统计指标的含义很好理解,不再多说。正常情况下,肯定contigs/scaffolds序列总数越少、序列总长度合理、N50等值越高长,组装结果越好。

4.png

 

在“icarus.html”中点击“Contig size viewer”,或者在以上界面(即“report.html”)中直接点击左上方的“View in Icarus contig browser”后,则可在新界面中以滑动窗格的形式,查看基因组序列组成(即基因组序列由哪些contigs/scaffolds组成)、长度、N50等信息。

该界面中可自定义展示区间长度,可通过在“start”或“end”中输入特定区间数值,也可在图中拖动黄色区块查看。

5.png

 

“有参评估”


额外指定参考基因组后,相较于上述“无参评估”,结果内容更加详细。“icarus.html”导航页面中的内容如下,多了一项评估结果。此外,在已有的两项评估结果中也增添了更多的内容。

6.png

点击其中的“QUAST report”(即链接至结果文件夹中的“report.html”),主要内容除了包括了组装结果的基本信息,如拼接后的序列总数、序列长度、GC含量、N50、长度累积曲线等之外,还包含参考基因组的序列长度、GC含量等信息,以及组装序列与参考物种序列的align信息等。除了contigs/scaffolds序列总数越少、序列总长度合理、N50越长组装结果越好外,理论上组装序列与参考物种序列的unalign数量及长度数值越低,组装结果越好。

对于右图,红色实线代表所评估的基因组,黑色虚线代表参考基因组。若两条线重合程度越高,则理论上所评估的基因组组装质量越好。

7.png

 

同样地,在“icarus.html”中点击“Contig size viewer”后,则可在新界面中以滑动窗格的形式,查看基因组序列组成(即基因组序列由哪些contigs/scaffolds组成)、长度、N50等信息。该界面中可自定义展示区间长度,可通过在“start”或“end”中输入特定区间数值,也可在图中拖动黄色区块查看。

相较于上述的“无参评估”结果,该界面还根据组装结果与参考基因组的align信息,在该组装结果的展示图中将组装结果与参考基因组之间的一致区域、非一致区域等标记出来,以更好地帮助我们对组装基因组结果进行评估。

备注:对于每一条scaffold/contig,只要存在很少一部分与参考基因组不一致的区域,即将整条scaffold/contig判定为“misassembled contigs”(即错误装配的contigs,在图中标记为红色区域)。由于无法很准确地仅根据两个基因组的align结果信息判断是否真正存在组装错配(也可能为真实的变异情况),因此该结果仅供参考。

8.png

在“icarus.html”中点击“Contig alignment viewer”后,以可滑动窗格的形式简要展示组装结果与参考基因组的align信息。我们可方便地依据参考基因组的序列组成、基因位置等信息,更好地对组装基因组结果进行评估。例如,通过该图可用于帮助查看基因组中可能存在的错误拼接区域。

9.png

在该界面下继续点击“text”后(位于参考基因组序列展示的前方,靠近报告的左上方),可查看组装结果与参考基因组的详细align结果。

10.png

该界面最下方为对align结果的整体统计,除了包含覆盖contigs/scaffolds数量、长度等基本内容之外,还对SNPsInDel等变异进行了统计。

11.png

 


参考文献


Gurevich A, Saveliev V, Vyahhi N, et al. QUAST: quality assessment tool for genome assemblies. Bioinformatics, 2013, 29(8):1072-1075.




http://blog.sciencenet.cn/blog-3406804-1163959.html

上一篇:R包DESeq2进行微生物群落物种丰度差异分析及ggplot2绘制差异火山图
下一篇:使用BUSCO评估基因组组装完整性

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-8-12 18:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部