||
在引入系统发育系统学的思想与概念体系之后,在引入分子序列信息之后,系统发育重建在量化分析和可重复性方面都有了很大进步,但是在很大程度上仍然常给人以黑箱子的感觉。这在研究实践中一般会表现为,对于基于不同基因得到的不同结果,甚至基于相同基因得到的不同结果,常常很难确切地对原因进行溯源。表1中列出了在进行分子系统发育推断和分歧时间推断过程中,在各个步骤和环节可能造成影响的一些因素。在以前,尤其是5-6年以前,研究者侧重于重视分析层面的因素,但实际上数据层面的影响因素是更多的。近年来越来越多期刊强制要求上传最终的矩阵文件,体现了研究者对于数据本身的重视程度的提高。
表1. 影响系统发育重建和分歧时间推断的可能因素
数据层面 | 标本阶段:内群选取、外群选取、样品污染、鉴定错误 |
实验阶段:序列总长、扩增错误、样品数量、样品质量 | |
测序阶段:基因及位点的覆盖度、测序错误、拼接错误 | |
比对阶段:碱基或氨基酸的位置同源性受长度变异影响 | |
基因属性:碱基或氨基酸的组成、替换类型、替换速率 | |
分析层面 | 算法选择、软件选择 |
进化模型检测软件与系统发育重建软件之间的衔接 | |
参数设定 | |
时间标定过程中的化石选择(分歧时间推断) |
系统发育分析中常说的随机误差(stochastic error)和系统误差(systematic error),其实都主要在数据层面。随机误差主要是说分子标记的序列总长较短,到底能否代表物种间的遗传分异,这个问题有一些计算机模拟分析给出过答案,当序列总长在3-10kb时,随机误差已经不大,10kb以上时则很小[1]。系统误差主要是说各种方向的偏异(bias),常被提及的是内群选取的完整性和外群选取的合理性,以及碱基和氨基酸组成的偏异。以线粒体基因组为例,其实单其中的蛋白质编码基因总长已经不低,但是由于线粒体基因组碱基偏异的普遍较重,因而越来越少单独使用,而是和核基因联用,并且越来越多使用氨基酸序列。
对于内群选取、外群选取、序列比对等因素的影响,可以设计单因素对照分析。准确的物种鉴定要依靠分类学家J。数据层面的其它因素一般通过在实验或分析过程中进行质量控制来提高质量。
在分析层面,参数设定没有展开,其中大多是可以进行单因素对照分析的。化石类群的选取虽然已经有比较丰富的数据库信息可以利用,但在标定时的选用仍然有待进一步标准化。
更多系统发育相关内容可以阅读之前的日志
1996-2015的20年间主要序列分子标记在系统发育重建中的使用简况
http://blog.sciencenet.cn/blog-1292052-963321.html
rRNA二级结构中的分子独征在系统发育重建中的应用--澳丝蝽科案例
http://blog.sciencenet.cn/blog-1292052-954459.html
系统发育重建中主流算法的未来走向
http://blog.sciencenet.cn/blog-1292052-943070.html
分歧时间研究中用作标定的化石所处的层位时间
http://blog.sciencenet.cn/blog-1292052-935151.html
目前分子系统发育研究中的两点局限性
http://blog.sciencenet.cn/blog-1292052-923288.html
互相独立多证据的一致指向在分歧时间推断中的应用--蝽类昆虫案例
http://blog.sciencenet.cn/blog-1292052-922084.html
高级阶元昆虫转录组研究中的标本问题
http://blog.sciencenet.cn/blog-1292052-905190.html
参考文献
[1] Delsuc F, Brinkmann H, Philippe H. 2005. Phylogenomics and the reconstruction of the tree of life. Nat. Rev. Genet. 6:361-375.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 10:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社