||
全基因组鸟枪DNA测序已成为评估广泛环境样本中微生物含量的有力工具。宏基因组学分析的出现使得在特定生物群中发现的微生物群的系统发育和功能分析成为可能,而无需培养。样本之间的荟萃分析可以揭示对环境条件或可能对健康或疾病负责的‘社区候选成员’的特定适应。
然而,为了在观察到的表型和成分变化之间建立因果关系,需要考虑潜在的混杂因素,如个体饮酒或治疗干预。因此,为了进行跨多个元基因组学数据集的有意义的分析,需要获取样本的环境条件和实验方法的准确上下文元数据。尽管努力在公共数据库中存储、组织和分析元基因组学数据,但由于不完整、缺失和/或不准确的上下文元数据,其可用性仍然存在重大障碍。
最近,欧洲生物信息研究所(EMBL-EBI)公开发表描述了一个机器学习框架,该框架能够使用从欧洲 PMC 的开放获取出版物中提取的术语来丰富各种宏基因组学研究的样本和实验元数据。通过该框架,可以快速选择使用Europe PMC 的元数据,不仅仅是宏基因组的,也有扩增子的。
宏基因组鸟枪法DNA测序已成为评估环境样品中微生物含量的有力工具。对于特定微生物群的系统发育和功能内容也可不依靠培养,而是通过对宏基因组测序数据的分析获得。
每个研究中,除了对微生物群落的分析数据有非常重要的价值,其前期准备中搜集的元数据也是非常重要的。
比如样本类型、所处环境、宿主类型、宿主疾病或健康、收集日期、地点、治疗方案等,或者是测序过程中所使用的DNA提取试剂盒、PCR引物等这类信息。
尽管在宏基因组数据的计算和索引方面取得了重大进展,但详细和结构化的微生物组元数据的缺失还是阻碍了跨多个宏基因组数据集的交叉研究。
在本文中,为了解决这个问题,研究人员搭建了一个机器学习框架,该框架主要通过构建随机森林多分类模型和NER模型分别用于文献分类和文本注释与预测。以此收纳归类Europe PMC以及ENA和MGnify中数据库中的研究的元数据信息。最终,可在研究人员提供的API中快速检索获取这些元数据。
1. 构建随机森林模型,按照文献中所给出的生物群落类别信息对文献分类
首先是构建用于模型的训练集
训练集选择从MGnify中获取到的PMC 标识符和 GOLD (Genomes OnLine Database) 数据库中相对应的文献。
接着是特征筛选
文献经XML预处理后,从与每个文章部分(即介绍、方法、结果、讨论)对应的 XML 标记中解析句子并合并到单独的部分文本中。
每个文本都与相应宏基因组研究的 GOLD 注释对齐,并且使用TF-IDF(Term Frequency Inverse Document Frequency)方法或通过Doc2Vec方法预先计算的200维向量作为生物群落分类器的特征。
最后构建随机森林多分类模型
对于TF-IDF 和 Doc2Vec方法分别构建了随机森林多分类模型,为了验证模型性能,数据集分为训练集(80%)和测试集(20%)。
结果如下图,通过对测试集的预测分类结果评估了模型效果。
ROC曲线表示Engineered(工程环境如废水处理厂、食品等), Environmental(生态环境如森林、海洋等)和 Host-associated(各种生物体如蚊子、鸟等)这三个特征在模型中的分类效果表现最好,都达到0.91以上。
而TF-IDF方法要优于Doc2Vec方法构建的模型(比较F1-score值)。因此,TF-IDF模型被用于文献分类中微生物组环境的预测。
2. 构建NER模型识别文献中的宏基因组学数据
从140份ENA 交叉引用文献(分类为工程环境的有44份,分类为生态环境的有50份,分类为宿主相关的有46份)分别构建训练集和测试集。
首先定义了16个新的宏基因组实体(Entity)名称,如下表中的Entity列所示,内容涵盖生物组和实验数据。
接着对每个实体都构建一个单独的数据集,每个数据集包含 2496 个带有 BIO 标记实体的 BERT 标记句子,被划分为训练(90%;2246 个句子)和测试(10%;250 个句子)。
具体的标注内容可见下图,示例图为Europe PMC文章,右边面板为定义的实体名称,左边高亮部分为根据定义标注的句子。
总共训练了16个模型,每个训练模型都有不同的超参数,分别比较和评估每个学习率和时期组合的准确率(Precision)、召回率 (Recall) 和 F1-score,如下表所示,每个模型的准确度都在0.8以上且F1值也都在0.7以上。
对于每个训练模型,在训练过程中,网格搜索在5个学习率和7个时间点上模型效果表现最佳。
3.扩充数据集
通过以上方法可以对新的文献进行分类、标注并融入自建的数据库中。目前,NER 模型对Europe PMC中的114,099 篇文献都进行了处理和注释,这里面也涵盖了与ENA 和 MGnify 数据库中的研究相关的 19,900 篇文献。
将NER 模型预测注释的Europe PMC与相应作者提交的 ENA 中 19,209 项宏基因组学研究的元数据进行了比较,选择了最常见的20个字段进行展示,结果如下图,对于每个字段,每一条柱子都显示了每个来源的具有相同、不同和唯一元数据的文献的数量。
结果表明,对于宏基因组学元数据的信息,Europe PMC能提供ENA中缺失的部分。而对于ENA中已有的部分,NER模型也精确识别到了,可见该模型对于新内容的泛化能力也是可以的。
通过该框架,可以快速选择使用Europe PMC 的元数据,不仅仅是宏基因组的,也有扩增子的。无需费力地阅读全文。文章中提供的API地址:
(https://gtr.ukri.org/search/project?term=*),用于快速检索。
同时公开了宏基因组学注释管道源代码(
https://gitlab.com/maaly7/emerald_metagenomics_annotations),可自行通过该管道注释文献。本文转自:谷禾健康
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-14 06:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社