||
Predicting microbiome compositions from species assemblages through deep learningt
DOI:https://doi.org/10.1002/imt2.3
发表日期:2022年3月1日
第一作者: Sebastian Michel-Mata1,2
通讯作者:Yang-Yu Liu(刘洋彧)(yyl@channing.harvard.edu)3, Marco Tulio Angulo(mangulo@im.unam.mx)4
合作作者: Xu‐Wen Wang(王旭文)
主要单位:
1,4墨西哥国立自治大学(Center for Applied Physics and Advanced Technology, Universidad Nacional Autónoma de México, Juriquilla, Mexico;CONACyT—Institute of Mathematics, Universidad Nacional Autónoma de México, Juriquilla, Mexico)
2美国普林斯顿大学(Department of Ecology and Evolutionary Biology, Princeton University, Princeton, New Jersey, USA
3美国布莱根妇女医院和哈佛医学院(Channing Division of Network Medicine, Department of Medicine, Brigham and Women’s Hospital and Harvard Medical School, Boston, Massachusetts, USA)
英文版(文章简介):https://youtu.be/IClGxZ9MGy0
中文版(软件使用):https://www.bilibili.com/video/BV1mU4y1f7du/
中文翻译、PPT、中/英文视频解读等扩展资料下载,请访问期刊官网:http://www.imeta.science/
微生物可以形成复杂的群落,并在维持环境完整性及宿主健康方面发挥着关键作用。合理控制这些微生物群落需要我们提高预测不同物种组合如何影响群落结构的能力。然而,由于我们对调控菌群动态的各种物理、生化和生态过程的了解有限,因此做出这样的预测仍然极具挑战。为了克服这一挑战,我们提出了一个深度学习框架,该框架仅从训练数据中自动学习物种组合和菌群结构之间的映射,而无需了解上述任何过程。首先,我们使用经典种群动力学模型生成的合成数据系统地验证了我们的框架。然后,我们将该框架应用于来自体外和体内微生物组的数据,包括海洋和土壤、黑腹果蝇肠道以及人类肠道和口腔微生物组。我们发现该框架可以实现从少量训练样本中对复杂的菌群结构进行准确的预测。我们的结果展示了深度学习如何让我们能够更好地理解并可能操控复杂的微生物群落。
微生物可以形成复杂的多物种群落,这些群落在维护其环境的完整性或宿主的健康方面发挥着关键作用。例如,微生物群落在土壤养分循环和作物生长中发挥着关键作用。在人体中,肠道微生物在我们的营养、免疫系统反应、病原体抗性、甚至我们的中枢神经系统反应中都具有重要作用。尽管如此,物种的入侵(例如,病原体)和灭绝(例如,由于使用抗生素)会导致物种组合发生变化从而导致群落转变为不期望的结构。例如,抗生素的使用可以将人类肠道微生物群落转变为使宿主更容易受复发成分病原体感染。同样,有意改变物种组合,例如通过使用粪菌移植,可以将这些微生物菌落恢复到理想的“更健康”结构。因此,提高我们合理操控这些微生物群落的能力要求我们可以根据物种组合的变化来预测菌群结构。建立这些预测还可以降低管理成本,帮助们预测物种组合的哪些变化更有可能产生所需的群落组成。不幸的是,由于我们对调控微生物动态的各种物理、生化和生态过程的了解有限,因此做出这样的预测仍然具有挑战性。
为了克服上述挑战,我们提出了一个深度学习框架可以在微生物种群动力学未知的情况下仅从训练数据学习物种组合到菌群结构的映射。我们使用由经典生态动力学模型生成的合成数据系统验证了我们的框架。然后,我们将该框架应用于体外和体内群落的真实数据,包括海洋和土壤微生物群落、黑腹果蝇肠道微生物组,以及人类肠道和口腔微生物组。在这些不同的微生物群落中,我们发现我们的框架仅从一小部分训练样本便可准确预测菌群结构成。我们的结果证明了深度学习可以帮助我们理解和操控复杂微生物群落。
考虑所有可以栖息在某个生态环境中的微生物所组成的物种库Ω={1,⋯,N},如人类肠道。一个从该环境中获得的样本可以被认为是一个从Ω获得的具有特殊物种组合的群落。一个样本的物种组合可以用一个布尔向量来表征z∈〖{0,1}〗N,其中第i个元素zi = 0 (zi = 1)当且仅当第i个物种存在(缺失)于该样本。同时每个样本的物种组成可以用另一个向量p∈∆N来表示,其中第i个元素pi表示第i个物种的相对丰度, ∆N={p∈R≥0N}为N-维概率单纯型。因此,我们需要解决的数学问题就是从数据中学习出如下映射:
φ:z ∈{0,1}N⟼p ∈∆N , (1)
该映射基于物种组合z来为组成向量(即菌群结构)赋值p = φ(z)。上述映射取决于影响微生物群落动力学的许多物理、生化和生态过程。这些过程包括生态系统空间结构,可用资源的化学梯度,以及种间/种内相互作用以及其他因素。我们对大多数微生物的所有这些过程机制的了解有限,因此我们对映射φ知之甚少。
接下来,我们展示如何在不知道上述所有过程机制细节的情况下,可以从物种组合中预测菌群结构。我们的方法直接从具有S个菌群样本的数据集D中学习映射φ。我们设置每一个样本为一个(z,p)对,以满足方程(1)的映射,见图1A。
我们使用具有5个细菌物种的果蝇肠道物实验数据解释该框架:植物乳杆菌(Lactobacillus plantarum)(蓝色)、短乳杆菌(Lactobacillus brevis )(粉红色)、巴氏醋杆菌(Acetobacter pasteurianus )(黄色)、热带醋杆菌(Acetobacter tropicalis)(绿色)和东方醋杆菌(Acetobacter orientalis)(紫色);
(A) 我们随机将数据分成训练(D_1)和测试集(D_2)各包含80%和20%的样本。每个数据集包含(z,p)对,其中每个样本的物种组成z ∈{0,1}N (顶部)与组分p ∈∆ N(底部)对应;
(B) 为了从物种组成预测菌群结构,cNODE框架包含一个ODE求解器和一个参数化函数f θ。训练过程中,参数θ被调整以从训练集中的物种组成z ∈{0,1}N 去预测菌群结构p̂ ∈∆N;
(C) 训练完成后,测试集中根据新的物种组合预测得到的菌群结构被用来评估算法性能。在这个实验性微生物群落,cNODE学会了对测试数据集中的组成进行准确的预测。例如,在物种 3 和 4(样本 26)的组合中,cNODE正确地预测了该菌群结构主要由单一物种主导。
为了确保从D学习φ在数学上是可行的,我们做了以下假设。首先,我们假设该微生态环境中收集的菌群样本具有普适的种群动力学(即不同的菌群样本的动态演化可以被具有相同参数的种群动力学方程所描述)。这个假设是必要的,否则,映射φ不存在,这意味着从物种组合预测菌群结构必须以特定于样本的方式完成,这是一项艰巨的任务。当数据集中的样本是从相似的环境中收集时,种群动力学的普适性假设将会得到满足。事实上,在这种情况下,环境因素可以被视为大致固定的,因此不需要用于结构预测。对于体外群落,如果样本是从同一个实验或多个实验中收集的,但具有非常相似的环境条件,则种群动力学的普适性假设也满足。对于体内群落,数据分析表明健康成人的肠道和口腔微生物组表现出很强的普适性种群动力学。
其次,我们假设收集到的样本的成分代表稳定状态的菌群结构。这个假设是很自然的,因为对于高度波动的菌群结构,映射φ是无法明确定义的。我们注意到宿主相关微生物群落的一些观察性研究,如人类肠道微生物组在没有剧烈饮食改变或广谱抗生素使用的情况下,可以保持在比较稳定的状态。
最后,我们假设对于每个物种组合z ∈〖{0,1}〗N,有一个特有的稳态菌群结构p ∈∆N。这个假设要求多稳态不存在于该微生态环境的物种库(或其任何子集)中。这个假设是必需的,否则映射φ不是单一的,菌群结构的预测变为数学上不可行。
在实际数据分析中,我们预计上述三个假设都不能严格满足。所以,任何从物种组合中预测菌群结构的算法都需要系统地进行测试,以确保其对违反上述假设时的预测误差是鲁棒的。我们可以采用差异-重叠曲线 (Dissimilarity-overlap curve)分析来先验检查微生物组数据集是否满足普适种群动力学假设。对真实数据是否满足其余两个假设的先验性检测是十分困难的。然而,从物种组合中准确预测菌群结构是以上三个假设的有效性后验证据。
考虑构建一个映射φ̂ θ:〖{0,1}〗N→ΔN,该映射由 θ ∈Rp参数化,并基于物种组合z,给出预测的菌群结构p̂=φ̂ θ (z)。在上述假设下,我们原则上可以从数据集D通过训练φ̂ θ (即调整其参数θ 以确保φ̂ θ 似于φ)学习方程(1)中的映射。现有的深度学习网络架构和训练方法,例如用梯度下降算法训练的ResNet,是解决这个问题的自然选择。我们发现可以通过训练ResNet架构去预测简单的菌群结构,例如体外群落(SI:S2.1)。但是对于像人类肠道微生物组这样的大型体内群落,ResNet没有表现非常好。 ResNet的性能不佳可能是由于训练期间的梯度消失问题。即,ResNet架构必须满足两个对方程(1)映射的非常特殊的限制。首先,预测的组成p̂必须满足p̂ ∈∆N。其次,任何缺失物种的预测相对丰度在集合中必须完全为零(即 z i=0时 p̂ i=0)。
为了克服传统的基于神经网络的深度学习框架在物种组合中预测菌群结构时的局限性(例如 ResNet),我们开发了cNODE和图1。我们使用神经网络常微分方程(NODE)的概念设计cNODE框架,cNODE可以被解释为ResNet架构的连续结构。至关重要的是,cNODE的架构和初始化使得使得其能够满足上述两个限制。此外,cNODE的架构自然地规避了处理组成数据分析中与零值相关的典型困难。人体微生物组中经常出现零丰度值数据集,因为它们跨宿主(即不同的个体往往有不同的物种组合)。为了评估cNODE的预测误差,我们可以计算给定的物种集合的预测组成和实际组成之间的差异度量。一旦选择了这种差异性度量,我们就使用给定次数的元学习算法以最小化在训练数据集D_1中的平均预测误差。使用这种元学习算法可以提高cNODE用于预测从未出现的物种组合的组成。一经训练,我们通过计算训练期间未使用的测试数据集D_2中的样本的平均预测误差来评估 cNODE的性能。
图1阐述了cNODE应用于Gould 等人在研究黑腹果蝇微生物组的细菌物种的一个小型群落N=5。该数据集D包含 S=26个样品。为了解释cNODE的潜力,我们考虑一个由21个随机选择的样本组成的训练数据集(图 1A)。如前所述,我们将每个训练样本设置为“物种组合”z (顶部)和“物种组成”p 对(底部)。一旦训练好,cNODE的主要用途就是预测“从未出现”的物种组合对应的物种组成即菌群结构——即不在训练数据集中的“测试组合”。为了评估 cNODE 用于预测此类测试组合的性能,我们使用剩余不包括在cNODE训练中的5个实验样品作为测试数据集。图1可以看出,NODE可以准确预测测试组合的菌群结构。例如,cNODE预测在物种3与物种4(未用于训练)的组合中,物种3将濒临灭绝。这个预测与实际实验非常吻合结果(图1c中的样本26)。
我们首先使用由Generalized Lotka-Volterra (GLV) 动力学生成的具有N=100物种的稳态数据来评估cNODE的性能。我们使用两个参数来表征物种库的种群动力学。首先,连通度C > 0,表征库中两个物种直接相互作用的可能性。二、典型作用强度σ ≥ 0,表征如果它们相互作用时的典型效应。不同的栖息地的物种组装可由不同的参数 (C,σ)表示。尽管GLV模型很简单,但它成功地描述了多种环境中的微生物群落微生物种群动力学,从土壤 和湖泊到人类肠道。
图2A展示了cNODE在训练期间的表现。此图中训练和测试数据集的样本大小满足S = N。请注意,训练集的预测误差随着训练步数的增加而降低,特别是对于低σ。有趣的是,测试集的预测误差无论σ值如何,在足够的训练时期后都会达到平稳状态。这种稳定意味着cNODE已经被充分训练,且过拟合程度较低。稳定值随着参数σ而增加(即测试预测误差增加)。这个结果对于不同的训练数据集大小和不同的(C,σ)参数组合不变。在所有情况中,测试预测误差达到一个稳态值,其值随着C (图2B)或σ (图2C)的增加而增加。但是,至关重要的是,这种预测误差的增加可以通过增加训练数据集的样本数量来补偿。这个结果意味着,一般来说,当物种之间具有更高的连通性或更高的典型相互作用强度时,cNODE通常需要更多的训练样本。总的来说,这些结果表明使用S = 2N 或更多的训练样本就足够充分训练cNODE,无论微生态环境类型如何。在这种情况下,我们还观察到数据集中真实组成和预测组成之间的高度相关性,正如预期的低测试预测误差。
结果为N=100物种库使用GLV线性功能响应(A-E)或非线性功能响应生成的数据。种群动力学采用两个参数进行表征:连通性C>0和特征相互作用强度σ≥0。子图B-F中,细线表示使用10个不同数据集验证cNODE的预测误差。粗线表示平均误差;
(A) 使用S = N个样本,连通度C = 0.5和不同的特征相互作用强度σ训练cNODE;
(B) 从NODE在σ = 0.1和不同联通度C的合成数据中的表现;
(C) 从NODE在C = 0.5和不同特征相互作用强度σ的合成数据中的表现;
(D) cNODE在具有非普适动力学的合成数据中的表现;
(E) cNODE在具有测量误差(ε 衡量)的合成数据中的表现;
(F) cNODE在具有多重内部平衡点的数据中的表现。多重内部平衡点用参数μ ∈[0,1]来表征。所有数据中,C = 0.5,σ = 0.1。
为了系统地评估cNODE对违反其三个关键假设的鲁棒性,我们进行了三种类型的验证。在第一种验证中,我们生成的数据集违反了普适种群动力学的假设。在这种情况下,如果两个物种相互作用,一个物种对另一物种增长率的影响在数据集中的样本间平均变化为为η ≥ 0。因此,η = 0对应于普适动力学,较大的η值对应于更显著的普适动力学缺失。我们发现cNODE对普适动力学缺失具有鲁棒性。因为其渐近预测误差连续变化并保持相当低的测试预测误差,即便η = 0.4(图 2D)。cNODE对物种间相互作用为样本特有时的普适动力学缺失也具有鲁棒性。
在第二种验证中,我们评估了cNODE对物种相对丰度中测量噪声的鲁棒性。我们用一个常数来表征噪声强度ε ≥ 0.测量噪声可能会导致一些不存在的物种被测量为存在和反之亦然。我们发现cNODE在ε = 0.025之前表现良好(图2E)。
在最终验证中,我们通过模拟种群动力学具有非线性功能响应的动力学模型生成了具有多稳态的数据集。对于每个物种组合,这些功能响应在不同的“区域”中产生了两种内部平衡:一种区域为低生物量而另一区域为高生物量。因此,每个物种组合可以有两个组成。我们通过从第一种区域选择(1-μ)的样本,其余样本中第二区域来构建训练数据集。我们发现cNODE足够鲁棒并提供了合理预测,即便μ = 0.2(图2f)。
我们使用不同环境的六个微生物组数据集评估了cNODE。第一个数据集包括门水平海洋微生物组的S = 275个样本,具有N = 73个不同的门。第二个数据集由S = 26体内样本组成果蝇肠道微生物群,具有N = 5个物种,如图1 所示。第三个数据集包含土壤细菌物种体外群落的S = 93样本,具有N = 8个细菌物种。第四个数据集包含门级中央公园土壤微生物组的S = 113个样本(c = 36个门)。第五个数据集包含来自人类口腔微生物组的S = 150个样本(N = 73属)。最后一个数据集为来自HMP属水平(N = 58属)的人类肠道微生物组的S = 106个样本。请注意,对于每个数据集,为了确保cNODE有足够的训练样本S ≥ 2N,我们选择在特定的物种分类水平,其中N是所有样本中特定物种分类层次上的分类单元的总数。请注意,基于差异-重叠曲线分析,所有六个微生物组数据集在一定程度上显示了普适性种群动力学的特征。
为了评估 cNODE,我们对每个数据集进行了留一法交叉验证。中位数测试预测误差在六个数据集中分别为 0.06、0.066、0.079、0.107、0.211 和 0.242(图3A)。这些误差与在每个数据集中观察到的普遍性强度是一致的。为了理解这些误差的含义,对于我们检查每个数据集中五对 (p,p̂ ),对应于样本中观察到的和预测的五个组成样品。我们根据测试预测误差选择了五个样本。具体来说,我们选择了那些误差最小的样本,接近第一个四分位数,接近中位数,接近第三个四分位数,和具有最大误差(图3B-G 中的列,从左到右)。我们发现误差低于四分位数的样本提供了可接受的预测(左三图3B-G中的列),而样本的误差接近第三四分位数或最大错误确实表明观察到的和预测的成分之间存在显着差异(右图3B-G中的两列)。请注意,在人类肠道数据集误差最大的样本中(图3G,最右边的列),观察到的成分以普雷沃氏菌(粉红色)为主,而预测的成分样品以拟杆菌(蓝色)为主。这种巨大的差异很可能是由于不同的饮食模式。这些结果也证实了2N或更多的训练样本足以无论微生态环境类型如何,都要充分训练cNODE。请注意,使用其他分类级别在这些实验数据集中可能会改变cNODE的性能,因为它会有效地改变样本量。
cNODE在六个实验微生物群落中使用留一法交叉验证的结果;
(A) 从每个数据集的留一法交叉验证中获得的预测误差;
(B-G) 对于每个数据集,我们显示对应于最小预测误差、接近第一个四分位数、中位数、接近第三个四分位数、最大预测误差(包括异常值)的真实和预测组成。面板B-G中显示的所有成分都是样本外预测。
cNODE 是一个深度学习框架,用于从物种组合中预测菌群结构。我们使用模拟数据、体外和体内微生物组数据验证了其性能,发现cNODE可以使用少量训练样本实现准确的菌群结构预测。传统的微生物群落中物种丰度的预测采用种群动力学推断。然而,这些方法通常需要高质量的物种绝对丰度的时间序列数据,而对体内微生物群落而言,获取这些数据非常困难。cNODE绕过需要绝对丰度数据。但是,与经典方法相比,cNODE由于缺乏组成数据固有的可识别性导致其不能机制化解释。我们还发现cNODE可以胜过现有的深度学习架构,如ResNet,特别是在预测大型体内微生物组的物种组成时。最近,Maynard等人提出一种预测生态群落稳态丰度的统计方法。该方法需要物种的绝对丰度数据,而绝对分度在大多数微生物组数据集中是不可获得的。尽管仅使用相对丰度,cNODE仍能胜过这种统计方法。
深度学习技术在微生物组研究中得到了积极应用,例如用于宿主疾病状态的分类,预测免疫功能低下的感染并发症患者,或预测某些物种集合的时间或空间演变。然而,据我们所知,深度学习在预测物种组成的变化方面的潜力还没有被验证。我们的框架,基于神经元网络常微分方程的概念是一个可以通过合并附加信息来改进的基本模型。例如,结合可用的环境信息,如pH值、温度、年龄、BMI、身体部位和宿主的饮食可以提高预测的准确性。此附加信息将帮助我们预测存在于不同环境中的物种。添加“隐藏变量”例如未测量的总生物量或未测量的资源到我们的ODE将增强cNODE的表现力,但这可能会导致训练更具挑战性。最后,如果可用,物种之间遗传相似性的信息可以通过系统发育 Wasserstein距离加入到损失函数中以提供明确一个明确的梯度。
我们预计我们框架的一个潜在应用是通过添加一些物种到当前群落来预测该新物种可以将目标物种的丰度降低到实际灭绝阈值。因此,给定一个既定群落中的目标物种(可能是病原体),我们可以使用贪婪优化算法来识要添加的物种数量的最小集合,以便我们的架构预测它们将使目标物种清除。
我们的框架有一些局限。例如,cNODE无法准确预测丰度在训练数据集中从未观察到的分类单元。另外一个局限是当前的架构假设真正的多稳态不存在——即给定的物种组合的群落只允许一个稳态存在,其中每个物种在该稳态具有正的丰度。对于复杂的微生物群落,例如人类肠道微生物组,高度个性化的物种组成使得很难确定是否存在真正的多稳态。我们可以通过预测每个物种丰度的概率密度函数来扩展我们的框架以处理多稳态。多稳态对应于在这种情况下预测多峰密度函数。不足的数据集测序深度或覆盖度可以产生具有“假”多稳态的样本,从而导致我们的框架无法解决的预测错误。实际上,图2 中cNODE的数值验证表明测量错误会显著降低cNODE 的性能。
总之,复杂微生物群落的众多物种和未知的种群动力学一直是我们理解菌群结构变化(例如移除或添加物种)的根本障碍。推动这个领域向前发展可能需要失去一些解释机制的能力。从这个意义上说,深度学习方法可以使我们合理操控和预测复杂微生物群落的动态变化。
责编:马腾飞 南京农业大学
审核:iMeta期刊编辑部
Sebastian Michel-Mata, 普林斯顿大学博士生。Sebastian的研究涉及人类和动物群体的文化进化和进化社会动力学。通过建模,研究当社会和文化特征塑造个人互动时群体层面行为的涌现。他的工作结合了社会科学和生物学的问题和理论,并使用数学和计算工具来回答这些问题。在进入普林斯顿之前,Sebastian毕业于墨西哥国立自治大学 (UNAM),获得技术学士学位,并从克雷塔罗自治大学 (UAQ) 获得人类学学士学位。他研究的主题从复杂的微生物网络到知识传播和技术转移的机制。
王旭文,哈佛大学医学院以及布莱根女子医院博士后。他于2015年在中国科学技术大学获得物理博士学位。2017年加入哈佛大学医学院和布莱根女子医院从事博士后研究。目前研究的主要课题涉及结合网络科学、统计物理和深度学习等工具解决系统生物学,网络医学中的基本问题。
刘洋彧,哈佛大学医学院副教授,布莱根女子医院副研究员。刘洋彧于2009年在伊利诺伊大学厄巴纳-香槟分校获得物理学博士学位,论文主题是无序磁体的相变研究。之后,他在东北大学复杂网络研究中心先后担任博士后和研究助理教授。他在东北大学研究的主要课题涉及结合控制论、网络科学和统计物理等工具解决与复杂系统控制相关的基本问题。他在复杂网络系统的可控性和可观察性方面的工作被列为Nature的封面故事、PNAS的封面故事,并被包括Nature、Science、Science News、Science Daily、Wired 等在内的广泛媒体报道。2013年他加入哈佛大学医学院和布莱根女子医院。他目前的研究工作侧重于从群落生态学、网络科学,控制论和机器学习的角度研究微生物组。
Marco Tulio Angulo,墨西哥国立自治大学数学研究所。Marco于2012年获得墨西哥国立自治大学工学博士学位。2014年至2016年,在美国东北大学复杂网络研究中心担任博士后研究员,并在哈佛大学医学院布莱根女子医院从事访问研究。自2016年以来,Marco成为墨西哥UNAM数学研究所的CONACyT研究员。研究专注于开发理解、预测和控制微生物群落所必需的数学工具。
Michel-Mata, Sebastian, Xu-Wen Wang, Yang-Yu Liu, Marco Tulio Angulo. 2022. Predicting microbiome compositions from species assemblages through deep learning. iMeta 1: e3. https://doi.org/10.1002/imt2.3
联系方式:
主页:http://www.imeta.science
出版社:https://onlinelibrary.wiley.com/journal/2770596x
投稿:https://mc.manuscriptcentral.com/imeta
邮箱:office@imeta.science
微信公众号:iMeta
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 03:35
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社