woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

MEGAHIT:多快好省的宏基因组装工具

已有 9611 次阅读 2019-9-4 16:54 |个人分类:宏基因组|系统分类:科研笔记

image

MEGAHIT:通过简洁的de Bruijn图为超大型复杂宏基因组拼接的超快速单节点解决方案

MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph

Bioinformatics, [4.531]

2015-01-20  Article

DOI: https://doi.org/10.1093/bioinformatics/btv033

第一作者:Dinghua Li1,†, Chi-Man Liu2,†, Ruibang Luo2,†

通讯作者:Tak-Wah Lam1,2,*

其它作者:Kunihiko Sadakane3

作者主要单位:

1HKU-BGI生物信息学算法研究实验室和香港大学计算机科学系(HKU-BGI Bioinformatics Algorithms Research Laboratory & Department of Computer Science, University of Hong Kong, Hong Kong)

2L3生物信息学有限公司,香港(L3 Bioinformatics Limited, Hong Kong)

热心肠日报

  1. MEGAHIT是超快的宏基因组序列组装工具,尤其适合组装超大规模数据;
  2. 与SPAdes和IDBA-UD相比,计算时间和内存消耗方面优势巨大;
  3. 在同类软件评估中,MEGAHIT通常有着最少的计算时间和N50,同时也拥有最低的嵌合体比例(错误率);
  4. 软件安装方便,参数简单,可通过调整k-mer范围和步长控制分析质量和计算时间的不同要求;
  5. 尤其在土壤等复杂环境样本组装、大量样本混合组装方面优势明显,成为行业的主流组装软件。

MEGAHIT是超快的宏基因组序列组装工具,截止2019年9月4号引用786(615+171)次。其参与众多软件评测,如《宏基因组仿真数据生成软件:CAMISIM》(https://www.mr-gut.cn/papers/read/1045860958)和高水平新组装方法文章如《Nature子刊:宏基因组二、三代混合组装新软件OPERA-MS》(https://www.mr-gut.cn/papers/read/1088940721)等中,成为宏基因组分析中拼接必用的软件之一。

摘要

简介:MEGAHIT是一个二代测序从头组装工具,用于以时间和成本有效的方式组装大型和复杂的宏基因组数据。 它在分别具有和不具有图形处理单元的单个计算节点上完成了44.1和99.6小时的252 Gbps土壤宏基因组数据集的组装。 MEGAHIT将数据整体组装在一起,即不需要像分区和规范化那样的预处理。 与以前组装土壤数据的方法相比,MEGAHIT产生了三次更大的组装,具有更长的重叠群N50和平均重叠群长度; 此外,55.8%的读数与组装结果可对齐,较之前提高了四倍。

可用性和实施:MEGAHIT的源代码可在https://github.com/voutcn/megahit 上免费获得,并获得GPLv3许可。

联系方式:rb@l3-bioinfo.com或twlam@cs.hku.hk

补充信息:补充数据可在Bioinformatics在线获得。

主要结果

图1. MEGAHIT工作流程

Fig. 1. The workflow of MEGAHIT

image

表1. MEGAHIT和SPAdes在大肠杆菌数据集上的表现

Table 1. Performance of MEGAHIT and SPAdes on the E.coli dataset

image

表2. MEGAHIT与Howe et al.和Minia组装结果比较

Table 2. Summary statistics for MEGAHIT, Howe et al. and Minia

image

超同类软件10倍的计算速度,而且有更完整组装结果,更好的N50和最大片段。

表3. MEGAHIT与Howe et al.和Minia组装结果比对评估完整性

Table 3. Alignment statistics of MEGAHIT, Howe et al. and Minia

image

4. 结论

MEGAHIT可以在单个服务器上高效组装大型和复杂的宏基因组数据,同时提供更好的完整性和连续性。 MEGAHIT提供仅CPU和GPU加速版本。 使用GPU,土壤数据集的装配时间从4天缩短到不到2天。

扩展阅读

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA



https://blog.sciencenet.cn/blog-3334560-1196642.html

上一篇:Kraken:使用精确比对的超快速宏基因组序列分类软件
下一篇:VPN配置:实现远程访问服务器、内部网和文献下载权限
收藏 IP: 210.75.224.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 20:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部