woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

Microbiome:NGLess语言实现快速可重复分析宏基因组的流程NG-meta-profiler

已有 2104 次阅读 2019-8-15 00:24 |个人分类:宏基因组|系统分类:科研笔记

image

NG-meta-profiler:使用NGLess(一种领域专用语言)快速处理宏基因组

NG-meta-profiler: fast processing of metagenomes using NGLess, a domain-specific language

Microbiome, [10.465]

2019-06-03  Article

DOI: https://doi.org/10.1186/s40168-019-0684-8

全文可开放获取  https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-019-0684-8

第一作者:Luis Pedro Coelho1,2,3

通讯作者:Peer Bork1,7,8,9*

其它作者:Renato Alves, Paulo Monteiro, Jaime Huerta-Cepas, Ana Teresa Freitas

作者单位:

1 德国海德堡,欧洲分子生物学实验室,结构和计算生物学单位(Structural and Computational Biology Unit, European Molecular Biology Laboratory, Heidelberg, Germany)

7 德国柏林,麦克斯·德尔布吕克分子医学中心(Max Delbrück Centre for Molecular Medicine, Berlin, Germany)

Peer Bork的介绍和相关文章

详见下文:

日报

Microbiome:

  1. NGLess是用于描述高通量测序数据分析流程的语言,实现用户友好的可重复计算,提供常见操作内置支持和外部工具扩展;
  2. 此框架编写的NG-meta-profiler实现宏基因组的快速分析,包括序列预处理和比对至附带的数据库;
  3. 流程整理了人类肠道、海洋、老鼠、猪和狗的参考基因集可直接调用;
  4. 内置了并行计算管理parallel、宏基因组分析mocat、物种组成分析specl和motu等常用工具;
  5. NGLess表现出比mocat、bwa/htseq-count更快的分析速度,软件可bioconda安装。

主编评语:本文是EMBL的生信大佬Peer Bork教授团队开发的可重复分析框架,并搭建了宏基因组分析的快速有参分析流程,方便同行实现主要物种肠道微生物组功能组成的快速分析。

摘要

背景

鸟枪法宏基因组包含环境中所有的样本的基因组材料,允许表征微生物群落。为了理解这些群落,生物信息学方法至关重要。处理宏基因组的常见第一步是从原始测序数据计算不同分类或功能组的丰度估计。

鉴于该领域的广度,计算解决方案需要灵活和可扩展,使不同工具的组合成为更大的工作流程。

结果

我们提出了NGLess和NG-meta-profiler。 NGLess是一种领域特异语言,用于描述下一代序列处理流程。它的开发目标是实现用户友好的可重复计算。它为测序数据的许多常见操作提供内置支持,并且可以使用带有配置文件的外部工具进行扩展。

使用这个框架,我们开发了NG-meta-profiler,一个用于宏基因组的快速分析器,它执行序列预处理,比对至附带的数据库,过滤比对结果和分析(物种和功能)。它明显快于MOCAT2或htseq-count(因为它建立在NGLess上),其结果完全可重复。

结论

NG-meta-profiler是基于NGLess的处理宏基因组处理的高性能解决方案。它可以对原始样本执行标准分析,以完美可重复的方式作为定制分析的起点。

NGLess和NG-meta-profiler是开源软件(在自由MIT许可下),可以从 https://ngless.embl.de 下载或通过bioconda安装。

Background
Shotgun metagenomes contain a sample of all the genomic material in an environment, allowing for the characterization of a microbial community. In order to understand these communities, bioinformatics methods are crucial. A common first step in processing metagenomes is to compute abundance estimates of different taxonomic or functional groups from the raw sequencing data.

Given the breadth of the field, computational solutions need to be flexible and extensible, enabling the combination of different tools into a larger pipeline.

Results
We present NGLess and NG-meta-profiler. NGLess is a domain specific language for describing next-generation sequence processing pipelines. It was developed with the goal of enabling user-friendly computational reproducibility. It provides built-in support for many common operations on sequencing data and is extensible with external tools with configuration files.

Using this framework, we developed NG-meta-profiler, a fast profiler for metagenomes which performs sequence preprocessing, mapping to bundled databases, filtering of the mapping results, and profiling (taxonomic and functional). It is significantly faster than either MOCAT2 or htseq-count and (as it builds on NGLess) its results are perfectly reproducible.

Conclusions
NG-meta-profiler is a high-performance solution for metagenomics processing built on NGLess. It can be used as-is to execute standard analyses or serve as the starting point for customization in a perfectly reproducible fashion.

NGLess and NG-meta-profiler are open source software (under the liberal MIT license) and can be downloaded from https://ngless.embl.de or installed through bioconda.

主要结果

图1. NG-meta-profiler工作流程

Fig. 1 Schematic illustration of NG-meta-profiler

image

表1. NG-meta-profiler内置的参考基因集

Table 1 Gene catalogs bundled with NG-meta-profiler

image

流程整理了人类肠道、海洋、老鼠、猪和狗的参考基因集,基因数量从1百多万到4千多万不等。

表2. NGLess内置的功能模块

Table 2 NGLess built-in modules that add extra functionality

image

包括并行计算管理parallel,mocat宏基因组分析流程、specl物种组成分析、motu物种组成分析,minimap2比对工具等。

图2. NGLess与其它工具用时比较

Fig. 2 Timing comparison of NGLess and other tools.

image

每个工具显示三个重复。 bwa / htseq-count流程不包括预处理和过滤步骤。可见ngless速度上更有优势。

Three replicates are shown for each tool. The bwa/htseq-count pipeline does not include
preprocess and filtering steps

表3. 模拟数据结果质量

Table 3 Quality of results based on simulated datay

image

显示的是平均值和标准差。 (每个环境超过8次模拟)Spearman rho在每个工具的输出和真实情况之间

Shown are the average and std. dev. (over 8 simulations for each environment) of
the Spearman rho between the output of each tool and the ground truth

图3. 用NGLess语言编写的人类微生物组成分析的简化版本

Fig. 3 Abridged version of the human profiler, written in the NGLess language*

image

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA



https://blog.sciencenet.cn/blog-3334560-1193657.html

上一篇:Cell:新方法PopCOGenT鉴定微生物基因组间的基因流动
下一篇:NBT:MaPS-seq测序方法揭示肠道微生物空间分布
收藏 IP: 59.108.15.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 02:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部