|||
Raindy 注:
本文首发于本人QQ空间日志(https://user.qzone.qq.com/58001704/blog/1502418934),将不 定期更新,希望对初学者有帮助,欢迎关注。如需转载请保留原作者信息。
Q1: BEAST 有1.x 和 2.x 两个系列,如何选择?
A1: 可以根据分析不同目的进行选择,两个版本的特点简述如下:
I、BEAST 1的特点:
(1)适用于分析群体或物种级别的数据;
(2)可以同时评估树和节点的时间;
(3)分子钟模型的范围更广;
(4)树先验(Tree Prior) 和 demographic 模型范围更广;
II、BEAST 2的特点:
(1)重写的程序,更多模块化;
(2)可以通过添加包(Packages)来扩展BEAST;
(3)BEAST 1中的树先验(Tree Prior) 在该版本中不可用;
(4)支持数据模拟;
更多的功能比较,可以访问BEAST官网查看(http://beast2.org/beast-features/)
Q2: 如何比较BEAST中哪个模型最佳?
A2 : 一般通过贝叶斯因子法(Bayes Factor, BF)来比较两个模型的边际似然值(Marginal Likelihood),简单办法:通过BF法分析后,哪个模型对应的LnL值越大,相对更优。具体也可以通过以下操作来确定:在Tracer 中同时导入两个模型的xx.log 文件,选中所有要比较的模型后,依次点击菜单Analysis--->Model Comparation,Analysis type改为Harmonic mean,Reps=100,最后根据获得的BF值(BF=Pr(D|M1)/Pr(D|M2)至少大于3,则说明M1>M2)范围判断模型间的优劣程度。下图所示,第三个数据最佳(P_UCL_Constant_80M.log)
Q3: 模型中位点间的速率变异呈gamma分布,如何确定较为准确的Gamma类型数(Number of Gamma Categoies, nCat)?
A3: Gamma分布的形状通过alpha参数来确定,如下所示。当alpha值很小时,大部分位点慢速进化,只有一小部分位点快速进化;但当alpha值非常大时,大部分的位点以接近相同的速度进化。因此,当alpha值比较小时(如:shape=0.32,该值可以通过模型软件计算获得),可以将nCat设置为6(默认值为4)进行分析 。
Q4:BEAST 分析过程中,断电了怎么办?
A4: BEAST 1.x 没有断点续行功能,可以更名后重新运行,最后合并前后运行的数据;BEAST 2.x 有断点续行功能,可以追加运行,有点类似于Mrbayes的Checkpoint功能,如下图所示。
Q5:Baysian skyline analysis 时,popsize和groupsize一直不收敛,怎么办?
A5: 这两个参数不收敛,说明BEAUti配置时这两个所使用的默认参数不合适,可以在Operator标签修改(下图)或直接用记事本类工具修改,一般修改为原来值的10倍,如下图所示,将15.0改为150,6.0修改为60即可...此方式也适用于 Exponential growth 模型。
Q6:如何给BEAST及相关的工具增加虚拟内存?
A6: BEAST运算生成的结果文件,特别是tree文件,通常都比较大,使用TreeAnnotator 生成MCMC树,经常因为内存不足报错,其主要原因是虚拟内存设置过低。解决的办法有两种,一种是直接修改Java程序包中的Info.plist文件;另一种是用命令行运行,类似“java -Xms64m -Xmx256m -jar lib/beast.jar”。前者修改后一劳永逸,推荐使用,选择程序对象,如BEAST后,右键选择“显示包内容”,在打开的“Contents”目录内用文本编辑器工具打开Info.plist(mac系统推荐使用免费Pref setter)将JVMOptions下的Item 1的虚拟内存调大,如 -Xmx256m改为-Xmx6g,如下图所示:
Q7:如何判断自己的数据适合严格(strict)分子钟还是宽松(relaxed)分子钟模型?
A7: 可以先用宽松分子钟结合简单的Tree piror配置个xml文件,MCMC链长不需要很大,运行结束后,将xx.log文件通过Tracer导入,查看xxx.coefficientOfVariation 这个参数,该值介于0和1之间。如果值越接近于0,说明数据更接近严格分子钟模型;反之,更偏向于宽松分子钟模型,如下图,该值为0.511,说明该数据适合宽松分子钟模型。
PS:如果分析的数据有时间信号,可以通过Phylogenetic dating的treedater包来分析,详见日志:http://user.qzone.qq.com/58001704/blog/1506493780
Q8:如何判断数据中的采样时间是否可用于分子钟校准?
A8: 一般启用BEAUTi中的Tip dates 功能前,需要做个日期随机化检验(Date-randomizationtests, DRTs);如果没有通过DRTs,则说明数据中没有时间结构,不可用于分子钟校准。常见的DRTs 分析软件有TipDatingBeast(R包)、least-squares dating (LSD) ,如下图所示,该数据的采样时间具有时间信号,可以用于分子钟校准,相关方法描述详见本人2017年发在EVA上的文章(http://onlinelibrary.wiley.com/doi/10.1111/eva.12459/abstract)。