hypermarket的个人博客分享 http://blog.sciencenet.cn/u/hypermarket

博文

系统发育重建中主流算法的未来走向 精选

已有 7235 次阅读 2015-12-13 12:33 |系统分类:科研笔记| 贝叶斯, 简约, 似然, 邻接, 最小进化

      系统发育重建中会被使用到的算法大体包括最大简约法(maximum parsimony, MP),非加权组平均法(unweighted pair-group method with arithmetic means, UPGMA),邻接法(neighbor-joining method, NJ),最小进化法(minimum evolution, ME),最大似然法(maximum likelihood, ML),贝叶斯推断(Bayesian inference, BI)。这其中,UPGMA、NJ、ME都属于距离算法(distance method),从根本上讲属于数值分类学派-遗传距离思想的衍生产物。虽然说今天的分类学研究中,分支分类、数值分类、进化分类三者之间的竞争远不像曾经的那样激烈,而是各取所长融合而成,但是各派的主要贡献内容还是比较分明的。分支分类学派主要贡献了对于类群间关系和特征类型的精确定义,数值分类学派主要贡献了对于大数据量、多位点、量化建模的强调,进化分类学派主要贡献了对于进化支长、分歧时间等方面的重视。由于UPGMA、NJ、ME都从遗传距离而不是特征状态出发,与分支分类学的基本思想存在本质区别,再加上在系统发育研究实践中的表现普遍不佳(主要是在高级阶元问题上),因而并未被分类学家普遍采用。

      从表面上看,ML在实践中似乎与NJ和ME很相似,都会使用分子进化模型,但是那是因为一般的研究者在使用软件进行系统发育重建的过程中体会不到“基于距离”与“基于特征”这样隐藏的却同时也很本质的区别。也就是说,ML是融合了分支分类学派“基于特征”和数值分类学派“量化建模”优点的一种算法,并且在结果中也能很好地体现进化分类学派所强调的进化支长。BI与ML在计算流程上虽然有区别,但是在本质上也是以似然值作为评价树的标准,只不过不是强调似然值最优的树,而是强调包括似然值最优树在内的一个树的集合的总体表现(集合中的非最优树与最优树的似然值差异不显著,也就是所谓“收敛”的结果)。在计算效率上,BI曾一度占优(2003-2013),但是面对组学大数据时,在与RAxML的竞争中处于弱势(可能与树形空间扁平化导致收敛效率减低有关)。因此从目前各方面综合来看,ML明显占优。

      但是,不同算法表现差异这个事情的真相是否已经大体揭晓?这个时候,我们应该意识到,上述讨论中其实尚未涉及一个更为基本的问题,那就是数据本身。在“目前分子系统发育研究中的两点局限性”一文中(http://blog.sciencenet.cn/blog-1292052-923288.html),曾经提及类群选取、序列比对、基因筛选、位点筛选、数据类型、算法选择、模型选择等都有可能影响系统发育重建的结果,其中“类群选取、序列比对、基因筛选、位点筛选、数据类型”都可以被划归为数据本身的问题,如果再加上基因数量、序列总长,那么不难看出其实相较于算法而言,数据本身可能存在问题的方面是更多、更复杂的。通过完备的类群选取减弱系统误差、通过足够总长的序列减弱随机误差、通过校正比对提高碱基或氨基酸位置同源性的准确性、通过对位点进行筛选事先剔除部分噪音,这些都是提高数据质量的重要保证,是使得系统发育重建具有良好效果的前提。如果系统发育信号足够强,完全可以做到MP、ML、BI有大体一致的系统发育推断结果,这在Cladistics期刊的一些研究中有比较明显的表现;如果序列错拼、数据漏洞较多,那么就算是大数据研究,也不能确保ML就能给出正确答案。简而言之,就是数据本身比算法选择更为重要。

      看完数据与算法之间的基本关系框架,如果我们再回到对于算法的讨论上,那么ML(或者加上BI一起)会持续占优么,MP还有希望么?或者换句话说,还有什么是ML做不到的么?对于这个问题,这里无法给出最终答案,但是可以给出一些思考方向和个人观点。首先,我们不防在脑海中简单回顾一下各种基于进化模型的算法和相关软件的改进过程,不难发现算法和软件的主要进步都是一直在对各种bias进行各种建模纠偏。这说明数据中存在各种各样的异质性,而基于进化模型的ML和BI一直在这方面进行持续努力。然后,我们不妨看一下MP和ML在处理数据时,有什么基本特点(表1)。


表1  不同原则下算法的特点(谢强 等,2012)

                                                     简约       似然  

对单一特征形成模型的能力             有           无  

对整体形态特征形成模型的能力       -               -  

对整体序列特征形成模型的数量       单一       多样  

特征数量对于建立模型的影响          较小       较大  


      从这个表中可以看到,其实简约法也是有隐藏的进化模型的,并且和似然法存在较大区别。其实ML、BI中所使用的不同的分子进化模型就是不同的进化假设。MP对简约的追求可能给人以生硬、刻板、过于理想化的感觉,但是那其实是表象。在理论层面,MP与其他所有算法的根本区别在于MP不仅关心建树本身,还关心特征演化,这是优点;在实践层面,MP对于多重替换的考量比较薄弱,这是缺点。不过另一方面,ML虽然在过去十几年中依靠模型的不断完善在整体表现上优于MP,但是近年来在面对组学数据时也备受数据异质性的困扰,因而在实践中会在前期常规性地先对数据本身进行一些处理。也就是说,就算是ML,如果忽视数据本身的质量问题,那么模型能起到的作用极为有限。 总的来说,简约法可以对数据进行更为个性化和具有针对性的处理,而似然法倾向于用参数定义特定的模型进行统一的处理。如果简约法的个性化特点和数据的异质性特点能够有效对接,这或许是未来MP重新迎来辉煌的转机。


参考文献

谢强. 2012. 分子系统学的建树原则与算法. in: 现代动物分类学导论. 谢强, 卜文俊, 于昕, 郑乐怡 编著. 第13章,第176页. 北京: 科学出版社.



https://blog.sciencenet.cn/blog-1292052-943070.html

上一篇:基于GPU流处理单元的MrBayes并行加速
下一篇:不完全列举那些远离一国本土的岛礁
收藏 IP: 60.29.153.*| 热度|

10 戴小华 陈安 蔡小宁 朱朝东 黄永义 李晓童 谢平 万君兴 韩雨珂 uneyecat

该博文允许注册用户评论 请点击登录 评论 (8 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-13 19:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部