XX549137457的个人博客分享 http://blog.sciencenet.cn/u/XX549137457

博文

形态和分子数据在系统发育中的应用

已有 480 次阅读 2019-8-15 21:48 |系统分类:科研笔记| 摇蚊, 形态

形态和分子数据在系统发育中的应用

    从达尔文的物种起源开始,生物学家已经开始利用表型特征对物种的进化进行了初步的探究,开始有了进化树和系统发育学的概念。在随后的一个世纪,生物学家普遍运用表型特征,特别是利用形态学特征构建物种的系统发育关系。支序分类学理念的出现,生物学家更加注重表型特征对系统发育树构建的作用。

    然而随着科学技术的发展,从二十世纪六十年代开始,分子数据逐步被运用起来(染色体,氨基酸,核苷酸等)。特别是近几十年来,测序技术的飞速发展,从1977Sanger测序到2005年二代测序仪的出现,仅仅用了不到30年的时间。分子数据信息可以说是呈现爆炸式增长。系统发育研究的载体从单个小片段,到线粒体基因组到转录组,现在已经进入到系统基因组学时代。与此同时,表型数据的挖掘也在不断提升,包括电镜、断层扫描技术,表型领域的二代技术所产生的数据信息也在不断增加(Garcia et al., 2017),但与分子数据获得信息仍然无法相比。

一部分人认为表型特征信息在系统进化中的地位逐渐降低,但传统分类学家认为表型信息在系统发育进化中起着不可替代的作用。首先,可以通过形态特征的变化来追踪相应的分子变化,即表型和基因型的联系。其次,灭绝物种是分子数据获取中无法跨越的鸿沟。化石证据形的态特征,在生物的进化过程中曾扮演着重要的角色。对于一些化石物种,在物种进化中位置,只能通过形态学数据来界定,进而对时间节点进行校订。没有形态学信息,就永远不能推论物种的进化史。当依赖大数据进行建树的同时,形态学特征应该作为一个检验其正确与否的参照。所有依据分子数据构建的物种树都是基于现生物种,即便所使用的模型再精确,使用何种推论方法,始终无法正确的推断物种的进化历史。形态证据,尤其是化石证据,无疑是解决上述问题的根本所在(任东 2017)。

相对于分子数据,形态学信息可以避免“长枝吸引”等进化噪音的形成(Baker et al., 1998; Grant & Kluge, 2003)。分子数据无可避免的受到核酸替代饱和 saturation)、旁系同源(Paralogy)、不完全谱系(incomplete lineage sorting)、平行转移(horizontal transfer)、碱基偏向性(base composition bias),密码子偏向性(codon usage bias)、甚至是组学水平的适应性趋同进化(Foote et al., 2015; Parker et al., 2013)等许多因素的影响,甚至导致错误的系统发育树。

在相似的选择压力下,亲缘关系较远的物种,不仅形态学特征容易形成趋同进化,这种变化同样发生在分子水平(Castoe et al., 2009; Kriener et al., 2000; Li et al., 2008; Zhang & Kumar, 1997)Parker et al. (2013)Nature上发表了依靠回声定位类哺乳动物在组学水平趋同进化的现象。他们分析了22类哺乳动物2,326个直同源编码基因,发现约200个基因具有趋同进化的迹象。尤其在蝙蝠和海豚中更为普遍,这些基因大部分和听力、视力相关(感官基因)。Foote et al. (2015) 年同样在Nature上阐述了海生哺乳类动物在组学水平的趋同进化的现象。

但是,在大数据时代的今天,分子数据相对于形态学数据具有更大的优势。其一,分子数据的获取更加便利和客观。1. 无论是单基因片段,还是转录组或是基因组其获取方式比较固定,无论哪个测序公司的测序仪器通过解码核苷酸获得的数据信息基本一致。反观,在形态特征选取和编码时,分类学家的主观意识占据主导地位。Scotland et al.(2003) 512项研究中发现,使用形态特征来推断系统发育关系的论文中,只有20%的论文明确的指出研究中选择特征的准则(特征的选择和丢弃)。在这仅有的研究中,他们倾向说明具体的选择或丢弃策略,例如种内变异,缺失位点,连续性特征,特征的极性和趋同性状况。每一个分类学者就会根据自己的定义,编码出不同的数据矩阵(Hetherington et al., 2015)2. 形态学特征选取的不均衡性。例如,在区分生物学物种的时候,往往更加偏重生殖隔离,所以在生殖节上选取的特征会更多,更细致。3. 获取形态学性状耗费较长的时间。从林奈分类学的形态特征到当今的形态描述,形态数据的信息增加量屈指可数。

其二,分子数据可操作性更强。1. 模型的选择问题。对于分子数据来讲,具有明确的核苷酸替代模型,既包括简单JC69或者复杂GTR模型或者加入更多参数的其他模型(Felsenstein, 1981; Jukes & Cantor, 1969; Yang, 1993; Yang, 1996)。核苷酸的同源性比较明确,即一个核苷酸可以被另一个核苷酸所替代。每个位点的状态直观明确,分别由腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶构成。

对于形态学特征状态的界定,往往无法找到明确的定义,每个特征具有独立的演化模式,并且状态的转化方式尚未可知,因此使得模型的选择则更加困难。Hawkins (2000)运用九种不同的编码策略进行形态学的支序学分析,不同的编码策略会影响系统发育的分析结果,因此这无形中增加了主观意识对系统发育的影响(Forey & Kitching, 2000)

    但分子数据的分析过程比形态数据分析更为繁杂。形态数据分析过程不存在比对的问题,而分子数据的比对问题则是分析过程中至关重要的一环。如果比对环节出了问题,后续的结果不能令人信服。尤其是rDNA片段区域和内含子区域其中的高变异区段,目前并没有完美的比对的方法,而人工校对则更加困难。此外,在大数据的背景下,无论运用简约法、似然法或贝叶斯推论法,其运算时间耗时较长。

    基于生物分子进化历史的重建首先需要发现和分析缓慢进化的核苷酸或氨基酸序列。并非所有的基因或大分子都合适作为系统发育的标记,或者所有分子标记都可用于给定的一组生物(Patwardhan et al., 2014)。在海量的分子数据中,筛选适合的分子标记用于系统发育研究至关重要。在选择标记时候应该注意一下几点:1. 单拷贝基因效果可能比多拷贝基因更适合,一般选择线粒体和核基因。2. 基因序列要求具有较少的插入或者缺失,或者通过二级结构能辅助其正确比对。3. 具有足够信息位点。某些基因可能进化速率太快达到了饱和状态,不利于后续的分析。4. 具有可以扩增该基因的通用引物。引物不应过于通用,因为在这种情况下它会导致非特异性基因的扩增 (Yli-Mattila et al., 2000)




http://blog.sciencenet.cn/blog-3386659-1193767.html

上一篇:基于摇蚊科条形码数据的分子分类
下一篇:求解:大蚊科幼虫放入酒精后身体的变化

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-10-19 07:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部