||
[TOC]
近年来宏基因组学快速发展,仍面临诸多挑战。虽然出现了大量软件,但缺少标准样品的评估体系,各软件的优缺点、适用范围至今没有系统的评价,用户使用中也极难选择。本研究不仅提出了当前计算宏基因组学的挑战,并对研究特定科学问题时软件选择提供指南。
随着测序技术的发展,宏基因组学迎来了前所末有的蓬勃发展。但由于研究对象包含成百上千物种混合体,仍面临三大挑战———高度复杂混合物种基因组拼接、混合序列分箱(bin)重构单菌基因组、基因组的物种分类鉴定与注释。
虽然在这三个方向,已经出现了大量软件,但由于缺少标准样品的评估体系,各软件的优缺点、适用范围至今没有系统的评估,用户使用中也极难选择。
今天介绍的这篇来自德国不伦瑞克市赫尔姆霍茨传染病研究中心(Helmholtz Centre for Infection Research)Alice C McHardy教授团队领导的研究成功建立了含有1300多种己知微生物基因组的标准品及数据集,成为目前本领域软件评估的金标准,对现在软件的系统评估,不仅对用户选择与使用有重要的指导意义,同时可以帮助本领域软件和算法的进一步优化和发展。本研究共有45家研究单位参与,本课题组也参与了标准品建立的部分工作。
预印本于2017年1月9日发表在bioRxiv上,文章于10月2号被Nature Method接并在线发表,目前引用98次。
在宏基因组分析中,组装、分箱、物种注释的计算方法对下游生物学数据解释极为重要。然而,缺少统一的标准数据集评估各方法的表现。本领域的全球程序开发者需要即复杂又真实的数据集作为评估标准。
宏基因组基准(Critical Assessment of Metagenome Interpretation, CAMI):由700个新测序的微生物和600个新病毒的质粒组成,同时包括所有基因组间的相似度关系、公众的可用度和相关的实验方法。
基于参考数据集的评估,大多数据软件在组装和分箱(binning)步重构种水平个体基因组表现良好,但在包含相近菌株时影响很大。物种分类和分箱软件在高级别分类单元性能非常成熟,但在科水平以下表现迅速下降。同时参数的设置对结果影响也很大,决定结果的可重复性。
CAMI不仅提出了当前计算宏基因组学的挑战,并对研究特定科学问题时软件选择提供指南。
Figure 1: Assembly results for the CAMI high-complexity data set.
箱线图展示各软件组装高度复杂宏基因组数据结果,在参考基因组中的覆盖度分布情况。(a) 所有基因组、
(b) 为平均核酸相似度(ANI)小于95%的基因组,(c)为ANI大于95%的基因组。
(d) 基因组拼接比例与测序深度的关系。数据分为非冗余基因组(ANI<95%,棕色)、含有菌株水平基因组(ANI>=95%,蓝色)、高拷贝环形元件(绿色)。金标准是所有基因组区至少被宏基因组数据集中1个reads所覆盖,因此低丰度基因组拼接覆盖度的比例可以低于100%。
(a–c) Fractions of reference genomes assembled by each assembler for all genomes (a), genomes with ANI < 95% (b) and genomes with ANI ≥95% (c). Colors indicate results from the same assembler incorporated in different pipelines or parameter settings (see Supplementary Table 2 for details). Dots indicate individual data points (genomes); boxes, interquartile range; center lines, median. (d) Genome recovery fraction versus genome sequencing depth (coverage). Data were classified as unique genomes (ANI <95%, brown), genomes with related strains present (ANI ≥95%, blue) or high-copy circular elements (green). The gold standard includes all genomic regions covered by at least one read in the metagenome data set.
Figure 2: Binning results for the CAMI data sets.
(a) 基因组分箱工具调整随机指数(ARI)与成对序列分配比例(%)的关系。计算的ARI不包括未分配序列,因此反映了分配数据部分的分配精度。
(b) 恢复的基因组,有着不同的污染率和和完整度。
(c) 基于非冗余菌株(ANI<95%)组装结果的纯度(purity /precision) 和完整度(completeness/recall)
(d) 基于普通菌株(ANI>95%)组装结果的纯度(purity /precision)和完整度(completeness/recall)
对于每一个程序和复杂度数据集(见附表2),显示了具有最大纯度和完整性的最终结果。在每种情况下,总计达数据集大小1%的小分箱都被移除。误差线,S.E.M.
(e) 基于中等复杂度数据物种分箱全部结果评测。基于不同分类级完整度和纯度的分布情况。
(f) 基于中等复杂度数据物种分箱去除小于1%结果的评测。
(a) adjusted Rand index (ARI) in relation to the fraction of the sample assigned (in bp) by the genome binners. The ARI was calculated excluding unassigned sequences and thus reflects the assignment accuracy for the portion of the data assigned. (b) Number of genomes recovered with varying completeness and contamination (1-purity). (c,d) Average purity (precision) and completeness (recall) for genomes reconstructed by genome binners for genomes of unique strains with ANI <95% to others (c) and common strains with ANI ≥95% to each other (d). For each program and complexity data set (Supplementary Table 2), the submission with the largest sum of purity and completeness is shown. In each case, small bins adding up to 1% of the data set size were removed. Error bars, s.e.m. (e,f) Taxonomic binning performance metrics across ranks for the medium-complexity data set, with results for the complete data set (e) and smallest predicted bins summing up to 1% of the data set (f) removed. Shaded areas, s.e.m. in precision (purity) and recall (completeness) across taxon bins.
Figure 3: Profiling results for the CAMI data sets.
(a)雷达图展示每个软件基于首个高复杂度样本的细菌和古细菌部分,在不同等级和不同误差指标(加权unifrac、L1 norm、完整度、精确度和假阳性)的相对性能。将每个误差度量除以其最大值,以便于在相同的尺度上查看和进行相对性能比较。
(b)雷达图展示对六个分类等级的低复杂度数据集的微生物(过滤)部分的每个菌分箱的完整 度和精确度。红色文本和星号表示没有返回相应分类级别的预测的方法。各方法缩写和全称:FS, FOCUS; T-P, Taxy-Pro; MP2.0, MetaPhlAn 2.0; MPr, MetaPhyler; CK, Common Kmers; D, DUDes
(c)使用不同评估指标获得的各方面的最佳评分分析工具,将所有样本和分类等级汇总到属级别。较低的分数表明,一种方法基于对于特定的度量标准时间排名经常更高。unifrac指标的最大(最差)得分为38分(低、中、高复杂度数据集分别为18+11+9的最终分析结果),而所有其他指标的最高得分为190分(低、中、高复杂度数据集分别为5个分类等级 ×(18+11+9)分析最终结果)。
(a) Relative performance of profilers for different ranks and with different error metrics (weighted UniFrac, L1 norm, recall, precision and false positives) for the bacterial and archaeal portion of the first high-complexity sample. Each error metric was divided by its maximal value to facilitate viewing on the same scale and relative performance comparisons. (b) Absolute recall and precision for each profiler on the microbial (filtered) portion of the low-complexity data set across six taxonomic ranks. Red text and asterisk indicate methods for which no predictions at the corresponding taxonomic rank were returned. FS, FOCUS; T-P, Taxy-Pro; MP2.0, MetaPhlAn 2.0; MPr, MetaPhyler; CK, Common Kmers; D, DUDes. (c) Best scoring profilers using different performance metrics summed over all samples and taxonomic ranks to the genus level. A lower score indicates that a method was more frequently ranked highly for a particular metric. The maximum (worst) score for the UniFrac metric is 38 (18 + 11 + 9 profiling submissions for the low, medium and high-complexity data sets, respectively), while the maximum score for all other metrics is 190 (5 taxonomic ranks × (18 + 11 + 9) profiling submissions for the low, medium and high-complexity data sets, respectively).
预印本下载:http://www.biorxiv.org/content/early/2017/06/12/099127
通讯作者Google学术主页:https://scholar.google.com/citations?user=zJaGqmAAAAAJ
10000+: 菌群分析
宝宝与猫狗 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊 肠道指挥大脑
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外3000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 10:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社