||
整合现有基因组序列资料以揭示犬狂犬病毒在全球传播的规律(10)
(Integrating full and partial genome sequences to decipher the global spread of canine rabies virus)
法国巴斯德研究所等机构的Holtz等今年7月在国际权威科学杂志《自然通讯(Nature Communications)》发表研究论文(见参考文献),利用狂犬病毒基因组的全部和部分序列来分析历史上的狂犬病毒在国家之间的传播,产生了精确的年代测定和对其地理分布的可靠估计。
现分若干次译介此文,供国内关心犬狂犬病流行和控制的各界人士参考。
讨论(1)
我们提出了一个系统发生管线(pipeline),利用来自狂犬病毒(RABV)的部分基因组和全基因组序列及其元数据(metadata)的信息来研究历史上的RABV流行病的时空分布以及人类在其传播中所起的作用。通过这一分析,我们能够揭示RABV全球传播的模式和时间进程。
分析长期存在的病原体序列数据的挑战是数据质量和完整性的可变性,例如部分基因组与完整基因组的存在,采样日期和位置信息的准确性,以及不同地理区域的不平衡的代表性。在对此类数据进行系统发生分析时,需要在以下两种方法中作出选择:前一种方法是为避免潜在干扰而丢弃部分数据,只选用更单一、质量更高的分段采样的样本(subsample)(例如,仅选择整个基因组或特定基因序列样本),另一种方法是保留更多甚至全部数据以提高所得结论的可靠性。前一种方法允许使用更复杂,因此更耗时的方法,而后者需要更快的方法,因为有更多可用的序列可包括进来。使用更大的数据集进行系统发生和系统地理的推断将导致考虑更大范围的采样时间,以及来自更多国家或地区的数据,从而允许更详尽的分析和获得更可靠的结论。早先的RABV研究选择了前一种方法,侧重于较小(数百个序列)的数据集,这些数据集代表特定的部分基因或WGS(全基因组序列),并使用贝叶斯(Bayesian)或ML(最大似然树)推理方法进行分析。我们的研究采用了后一种方法,并展示了它在推理能力方面的优势。
我们的分析基于NCBI(美国国家生物技术信息中心)病毒数据库提供的10,000多个RABV的部分和全基因组序列。我们的管线(pipeline)采用5个RABV基因片段的串联比对(concatenated alignment),在部分序列中因存在缺失的区域而显示有间隙(gaps)(补充图2)。
系统发生分析(phylogenetic analyses)采用适合大型数据集的时间-效率(time-efficient)推断方法进行:使用FastTree软件进行近似最大似然(ML,maximum-likelihood)系统发生分析,使用LSD2(最小二乘法)进行年代测算,使用PastML实现的最大似然方法(ML)进行祖先地理特征推断。我们将这些结果与之前的研究结果进行比较,使用分段采样(subsampled)数据集的系统发生分析以及使用更复杂的进化模型来计算基因之间潜在的进化速率变化和潜在的选择压力,结果验证了我们的管线。使用更大的数据集,我们获得了兼容的拓扑树结构( tree Topology)和兼容(在不同的树和进化模型之间)但更精确的年代测定结果(图2)。
病原体传播分析的其他挑战来自于在为确定年代和流行国家而进行抽样时在代表性方面的偏差,这可能影响系统地理格局(phylogeographic)的重建。由于狂犬病的流行持续时间长(例如几个世纪),甚至国家的定义也可能随着时间而改变(例如英国,从大英帝国到联合王国),使故事进一步复杂化。我们的方法是试图通过三种方式以去除采样偏差和可能影响祖先特征重建(ACR,ancestral character reconstruction)的因素。首先,我们建立了一个分段采样协议(subsampling protocol),其中规定删减来自样品过多的国家的序列,因为众所周知,祖先特征重建(ACR)受到与能展示祖先特征的相关序列的数量的严重影响。此外,我们在区域和国家这两个层面都报告了ACR(祖先特征重建),因为在有些区域,国家的代表性较低。最后,通过代表RABV基因组的五个基因,我们能够包括独立于某个基因序列的亚基因组片段(subgenomic fragments)。
(未完待续)
参考文献:
Holtz, A., Baele, G., Bourhy, H. et al. Integrating full and partial genome sequences to decipher the global spread of canine rabies virus. Nat Commun 14, 4247 (2023). https://doi.org/10.1038/s41467-023-39847-x
本博客相关文章:
整合现有基因组序列资料以揭示犬狂犬病毒在全球传播的规律(1) 2023-11-18
整合现有基因组序列资料以揭示犬狂犬病毒在全球传播的规律(2) 2023-11-20
整合现有基因组序列资料以揭示犬狂犬病毒在全球传播的规律(3) 2023-11-23
整合现有基因组序列资料以揭示犬狂犬病毒在全球传播的规律(4) 2023-11-25
整合现有基因组序列资料以揭示犬狂犬病毒在全球传播的规律(5) 2023-11-27
整合现有基因组序列资料以揭示犬狂犬病毒在全球传播的规律(6) 2023-11-28
整合现有基因组序列资料以揭示犬狂犬病毒在全球传播的规律(7) 2023-11-30
整合现有基因组序列资料以揭示犬狂犬病毒在全球传播的规律(8) 2023-12-03
整合现有基因组序列资料以揭示犬狂犬病毒在全球传播的规律(9) 2023-12-05
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 01:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社