博文

狂犬病毒的分子流行病学（4）

已有 3219 次阅读 2020-8-22 02:48 |个人分类:狂犬病防治|系统分类:科普集锦| 丽沙病毒, 分子流行病学, 系统进化树, 狂犬病毒

狂犬病毒的分子流行病学（４）

——大型学术专著《狂犬病（Rabies）》最新版选译

第5章 分子流行病学（Molecular epidemiology）

作者：Susan A. Nadin-Davis

加拿大渥太华：加拿大食品检验署，渥太华Fallowfield实验室。

（Canadian Food Inspection Agency, Ottawa Laboratory- Fallowfield, Ottawa, ON, Canada）

5.3　病毒分型方法（Methods of viral typing）

5.3.3 系统进化分析原理 (1)

Principles of phylogenetic analysis

序列数据的系统进化分析（Phylogenetic analysis）已经成为RNA病毒分子流行病学分析的重要工具，丽沙病毒在这方面也不例外。使用一致的序列数据，类似的工具被用于病毒分型和系统进化研究，而不考虑序列长度和数据获取方法。然而，更充足的数据如完整的基因组数据所提供的更大的分辨率极大地提高了分析的解释能力。一旦核苷酸序列数据在预定的序列窗口被收集，这些数据将被分析以探究样本之间的相互关系。第一步涉及到对齐（aligning）序列数据，以便可以直接比较所有样本在每个位置的序列。接下来是对数据的综合解析，以生成一个系统进化树（phylogenetic tree），一个描述所有样本之间进化关系的分层级的分枝（branches）图。那些在树的一个分枝上形成离散簇（discrete cluster）的样本被称为进化枝（clade）;如果这个簇有强烈支持的数据，这些样本被认为形成了一个单源进化枝（ monophyletic clade），表明其所有成员都起源于一个共同的前体（precursor）。

然而，术语“进化枝（clade）”通常被松散地应用，所有的树都可能包含进化枝内的进化枝，这种结构代表了病毒的持续进化和亚型（subtype）的出现。一个分类单元（taxon）通常定义为一个物种或一组物种，它能清楚地定义某一类特定的生物体;这个术语有时也用来指一组标本，形成一个单源进化枝。描述系统进化树分组的术语，如系统群（phylogroup）、基因型（genotype）、进化枝（clade）、簇（cluster）、群（group）、型（type）和谱系（lineage），可以而且实际上经常互换使用。然而，为清晰起见，在描述一个系统进化研究时，为不同关联水平的样本指定特定的名称并一致地应用这些名称是有益的。此外，使用描述性进化枝/组名称以及在可能的情况下引用前面所述的名称有助于不同研究项目之间的样本比较。

在分析中使用的序列数据库通常包括一个或多个参考序列，以说明来龙去脉并允许对树进行解释。尽管这类研究的序列窗口将部分取决于其目标，但一般可以观察到，无论采用何种目标序列，对一组丽沙病毒的总体流行病学关系都可以得出类似的结论。因此，对所有已承认的丽沙病毒基因型代表之间关系的研究显示出相似的结果，而不必考虑使用某个特定基因、某个基因的一部分或整个病毒基因组，这一观察结果与这个属的成员很少(如果有的话)经历重组事件的概念相一致。然而，任何分析都需要足够的信息来产生具有足够可靠的统计支持的系统进化树。尽管依据短的目标序列(200 - 300个碱基)也可以获得系统进化预测，但序列窗口越长，发现样本之间差异的可能性越大;随着遗传变异的增加，可用于系统进化分析的能提供有用信息的数据的数量会增加，这就提高了获得可靠的系统进化树的机会。

为了识别和分型病毒样本，必须将其与代表该地理区域的病毒在基因组上同一区段进行比较，因此，目标序列的选择将取决于以前为参考分离株生成的序列数据的可用性。事实上，尽管N基因相对保守，但它经常被成功地用于区分同一地区的病毒变种，而且大量的N基因序列数据已经存入公共数据库，便于与新的分离株进行比较。对于试图在密切相关的病毒群体中监测变异的研究，更倾向于以更易变的序列为靶点，而且序列窗口越长，分析的信息就越丰富。

系统进化树是由计算机程序依据序列数据生成的，使用了各种不同的算法和方法进行树的重构。虽然有各种各样的软件包可用于这一目的，其中最常用的是用户友好的软件MEGA(Molecular Evolutionary Genetic Analysis，分子进化遗传分析)，其最新版本(MEGA-X)最近已经发布。该软件集成了多种算法和系统进化树的构建方法。常用的基于距离的方法如邻接法(neighbor joining, NJ)和配对群组不加权算术均值法(unweighted pair-group method with arithmetic means，UPGMA)，考虑所有序列对之间的整体遗传距离，生成距离矩阵，并以此作为系统进化树构建的基础。其他算法，包括那些采用基于字符的最大简约(maximum parsimony，MP)和最大似然(maximum likelihood，ML)方法的算法，考虑个别替换来确定数据支持的所有可能的树结构，然后通过比较过程确定最优树。MP通过选择解释数据所需的进化步骤最少来确定最优树。ML将最优树确定为根据假设的进化模型最有可能发生的树，其中几个模型已经被详细介绍;为最佳拟合模型查询数据的程序已被纳入到 MEGA软件包。