||
aBIOTECH | 中国农科院屠焰/马涛团队通过优化Kraken2工具提高微生物物种分类性能
实现复杂环境中微生物物种组成的准确鉴定是一项极具挑战性的工作。Kraken2作为目前物种分类注释的首选工具之一,其参考数据库和置信度的参数选择直接影响Kraken2物种注释和丰度水平,进而影响研究结果的可靠性。评估不同参考数据库和置信度参数对Kraken2分类的准确度和召回率等方面的影响,可以对研究人员根据特定需求选择合适参数提供建议。
近日,中国农业科学院饲料研究所屠焰/马涛团队在aBIOTECH 发表了题为“Impact of database choice and confidence score on the performance of taxonomic classification using Kraken2” 的研究论文,揭示了参考数据库和置信度选择对Kraken2物种分类性能的影响。
参考数据库的选择直接影响物种注释的准确性、灵敏度和特异性,全面的参考数据库包含大量的微生物基因组信息,能提供更加广泛的物种覆盖范围,但是需要更多的计算资源,在宏基因组分析时需要在参考数据库选择和计算资源间做出权衡。使用Kraken2进行宏基因组分析时,置信度是一个关键参数,置信度直接决定分类标签被分配给一个序列所需的最低k-mer匹配比例。然而,目前在使用Kraken2进行物种注释时,并没有明确给出参考数据库以及置信度参数的使用建议,大多采用默认值。研究人员也通常会忽略参考数据库的选择、以及不同置信度的设定对物种分类及丰度准确性的影响。
图 1 不同数据库和置信度对分类准确率、召回率和F1分数的影响
本研究发现,当使用较小的参考数据库时,随着置信度的增加,能够被分类的序列显著降低;而使用较大的数据库时,分类率受置信度的影响较小。选择较大的参考数据库,随着置信度的增加会降低假阳性物种出现的概率,同时显著提高物种分类的准确度和F1评分,召回率基本不会受到置信度的影响。但置信度的增加会显著影响物种相对丰度的波动,置信度越高,注释到物种丰度与真实丰度差异越大。所以,在使用Kraken2进行物种注释时,建议使用更全面的参考数据库(standard、nt和GTDB数据库),并结合适度的置信度(0.2-0.4)来提高分类的准确性和灵敏度。
中国农业科学院饲料研究所博士研究生刘云龙为文章第一作者,屠焰研究员和马涛副研究员为文章共同通讯作者,Morteza Ghaffari研究员指导了相关工作。该研究得到中国农业科学院科技创新工程和中央级公益性科研院所基本科研业务费专项资助。
引用本文:
Liu, Y., Ghaffari, M.H., Ma, T. et al. Impact of database choice and confidence score on the performance of taxonomic classification using Kraken2. aBIOTECH (2024). https://doi.org/10.1007/s42994-024-00178-0
相关阅读:
aBIOTECH | 加拿大萨斯喀彻温大学Leon Kochian教授解析培育营养—抗旱性能兼顾作物的根系结构基础
aBIOTECH评述 | 解码根系微生物组,推动农业可持续发展
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 20:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社