||
导读:
高通量数据聚类成OTU(s)与不聚类(直接分析数据)两种方式孰优孰劣一直存在争议。本文在近期阅读的基础上,总结了针对该问题的若干新进展(主要在微生物生态学领域),并延伸讨论这些进展对生态学其他领域(如入侵生态学等)研究可能的影响。
Thompson等人于2017年11月在Nature发表了关于地球微生物组计划的荟萃分析文章。这项浩大的工程文章调用了97个研究、27751份样品,测序得到22亿条序列,平均每个样品8万条序列。后续分析时,研究人员首先使用了传统的OTUs聚类,结果发现1/3左右的序列无法匹配已有的rRNA数据库,即这些数据将被删除或者被定义为未知序列。据此,他们最后选择了无需参考序列(不聚类OTU)的分析方法,Deblur。使用Deblur直接删除错误/误差序列,从而获得单核苷酸精度的亚OTUs(sOTUs)。这种序列分析方法使得同时处理大规模样品成为可能。文章认为,不使用97%相似度聚类、直接使用序列分析得到的结果分辨率更高。该文章的中文翻译参见“微生态笔记”。
Deblur即是上述同组研究人员推出的不聚类OTUs进行高通量数据分析的方法(Amir 2017)。算法简介如下,详细算法参见(Amir 2017):
1)对sequence进行reads个数统计,按照丰度由大到小进行排序;
2)按照丰度高低反复对sequence进行计算,被判定为误差数据的reads将会被从所有相邻reads中减去;
3)当某个sequence的reads频次降到0时,该sequence即被删除。
Amir等人还比较了Deblur与DADA2,UNOISE2等降噪算法的效果异同。结果表明,与其他算法类似,Deblur可以提供稳定的sOTUs以获得单核苷酸分辨率的结果。Deblur的运算速率比UNOISE2低一个数量级,但是比DADA2高一个数量级。此外,Deblur的分析过程可以基于单个样品来做(不用把数据混在一起),因此可以支持大批量、不同研究的数据进行比较和分析。
DADA(Divisive Amplicon Denoising Algorithm)是Callahan等人于2012年提出的一种降噪处理方法,DADA2是2015年推出的更新版。DADA是一种分裂式分割算法。首先将每个reads全部看作单独的单元。Sequence相同的reads被纳入一个sequence,reads个数即成为该sequence的丰度(abundance),并计算每个sequence丰度的p-value。当最小的p-value低于设定的阈值时,将产生一个新的partition。每一个sequence将会被归入最可能生成该sequence的partition。依次类推,完成分割归并。研究人员使用DADA2对阴道样品进行分析,发现了OTU聚类方法未能检测到的Lactobacillus crispatus菌株。研究人员还使用三组数据集比较了DADA2与UPARSE聚类的效果差异(如下图)。结果表明DADA2可以检测到UPARSE所检测的及其不能检测的序列,说明DADA2提高了分析的分辨率和准确度。
UPARSE是Edgar推出的比较严格的聚类OTU的方法,但是Edgar本人近期也认为97%的聚类方式有些武断,认为应该将相似性阈值提高到99%或者100%。加之对DADA2的文章做出回应,Edgar推出了UNOISE2的降噪处理方法(目前UNOISE3也已经推出),并声明UNOISE2的结果堪比甚至优于DADA2。UNOISE2的原理比较简单,如下图所示,每个原点代表一个sequence,原点大小为相应丰度,绿色为正确的生物学序列,红色为含有若干错误的序列。左图内假设X为正确的生物学序列,周边序列按照与X的序列差异程度排序。与X足够临近、丰度又足够低的序列,很可能就是测序的错误,将被删除。Edgar还建议在对数据进行降噪处理时,应该pooling数据,而不是对单个样品分别分析。因为单个样品内丰度很低的序列在混样后并不见得很低,例如100个样品里各1条序列,混合后序列数可以提高2个数量级。
其他处理方式就不一一赘述了。虽然各有优劣,毫无疑问的是,理论上这些处理方式可以得到相似的多样性分布规律(pattern)等。而OTU聚类与序列直用主要的区别在于(Callahan et al. 2017):
1)规避97%的相似度等阈值,可以提高检测的分辨率,尤其是那些遗传距离非常近(>97%)的物种,往往会因为被归入某个OTU而被雪藏;
2)OTU聚类有点类似一次性操作,不同研究之间的可比性比较不好,尤其是做荟萃分析时,可能需要把数据从头开始做,而直接用序列分析,就容易很多;
3)使用序列本身作为tag可能比OTU要稳定的一个原因是,序列本身具有一定的生物学意义,可以作为稳定的生物学标记,甚至不需要参考数据库,而OTU总归不能等同于species。
当然序列本身的使用也不是万能的,比如,使用marker gene分析时,不同的研究对象和研究环境,可能仍需要筛选相宜的marker及引物,不同数据之间的可比性依然是存在问题的。
在微生物生态学以外,随着高通量测序技术在生态学其他领域应用的不断拓展,类似的问题也已经并将继续影响其他领域内的结果发现与解释。Brown(2016)在使用metabarcoding对加拿大沿海港口进行入侵生物(浮游动物类)早期检测的文章里,比较了直接使用序列比对(individual reads)和聚成OTU后再进行序列比对两种方式。结果发现,序列直接比对检测到379种浮游动物,其中24种被认定为非本地种(NIS);而OTU聚类后的结果发现,6种NIS物种未被检测到,另有1种属于鉴定错误。进一步的遗传分析显示,由于部分物种遗传距离非常近,因此容易被聚类成共享OTUs,而导致物种丢失。因此,直接使用序列进行比对可能会得到更可靠、更精确的结果。
使用高通量测序进行生物多样性分析时,另一个重要的挑战是现有的参考数据库(reference library)可能并不完善,尤其是形态学鉴定较为困难的生物类群。因此,规避物种划分(只关注pattern)成为替代选择。例如,2017年发表在Molecular Ecology Resources上的一篇文章,尝试了taxonomy-free的方法(Apotheloz-Perret-Gentil)计算硅藻指数(用以监测水体健康)。研究人员分别使用物种划分前后的eDNA数据计算硅藻指数,结果发现taxonomy-free的方法得到了准确性可观的评价。更重要的是,不进行物种划分的方法利用了95%的OTUs;而进行物种划分则只有35%的OTU可用,即其他的OTUs无法得到准确的比对结果,只能被舍弃。对于这种类型的分析,似乎不进行taxonomy assignment也是可行的。然而,在其他领域,如评估动植物多样性时,尤其是珍稀动植物或者入侵生物时,可能还是需要合适的方法获得物种水平的数据(如进一步完善参考数据库)。此外,在使用metabarcoding做食性分析或者动植物多样性监测时,遗传距离相近的动物/植物可能也会由于OTU聚类而被忽略。因此,如果条件允许,可以直接用序列进行比对,检测结果的可靠性。
综上所述,OTU聚类与否争议的根源其实在于,如何区分真实的生物数据与测序的错误。直接根据测序序列进行分析一定程度上确实会优于OTU聚类,结果的精确度和分辨率都会得到提高。测序技术和数据分析方法都在与时俱进,我们应该关注新的进展,但是也要尽量仔细比较和判断,谨慎选择适合自己研究的方法和模式。
参考文献
Amir A, et al. 2017. Deblur rapidlyresolves single-nucleotide community sequence patterns. mSystems 2:e00191-16.
Apotheloz-Perret-Gentil L, et al.2017. Taxonomy-free molecular diatom index for high-throughput eDNAbiomonitoring. Molecular Ecology Resources 17:1231-1242.
Brown EA, et al. 2016. Early detectionof aquatic invaders using metabarcoding reveals a high number of non-indigenousspecies in Canadian ports. Diversity and Distributions 1-15.
Callahan BJ, et al. 2017. Exactsequence variants should replace operational taxonomic units in marker-genedata analysis. The ISME Journal 1-5.
Callahan BJ, et al. Aug. 2015. DADA2:high resolution sample inference from amplicon data. bioRxiv preprint.
Edgar RC. Oct. 2016. UNOISE2: improvederror-correction for Illumina 16S and ITS amplicon sequencing. bioRxivpreprint.
Edgar RC. Oct. 2017. Accuracy ofmicrobial community diversity estimated by closed- and open-reference OTUs.PeerJ.
Edgar RC. Sep. 2017. Updating the 97%identity threshold for 16S ribosomal RNA OTUs. bioRxiv preprint.
Thompson LR, et al. 2017. A communalcatalogue reveals Earth’s multiscale microbial diversity. Nature.
声明:以上为笔者个人阅读总结,希冀抛砖引玉之效。虽已尽力还原文献真实,个人感情色彩仍在所难免。为削弱误导效应,强烈建议对相关内容感兴趣的师长朋友们阅读原文,获取更详细、更准确的知识。文中难免有疏漏错误之处,恳请大家不吝赐教。谢谢。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 10:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社