||
认识你自己
MEGA软件作为一种用于分析物种鉴定、亲缘关系、分子功能等的工具,已经越来越成为生物学研究的常用软件。考虑到MEGA的面向人群大多是本科毕设的学生以及少部分研究生,再结合这几年来我所接触的一些案例,因此本文着重介绍MEGA软件的使用以及基础的、够用的生信的分析。
很多人用MEGA分析自己的课题的时候,往往就是网上一搜、热心网友一答,做出了一张进化树的图了,然后就觉得万事大吉,甚至觉得自己就会分析了,实际上并不是这么一回事。你可能按照教程学会了使用软件,但是背后最重要的生物学意义以及MEGA软件的运行原理你一知半解甚至浑然不知,那么你的课题实际上只能算是进行了5%,因为还有50%的生物学意义和30%软件运行原理你还不知道,当然如果还有15%的湿实验(这个百分比大多数是根据一篇论文的内容进行估计的)。
如果你做的是物种鉴定,比如鉴定一种新发现的病毒(比如2019年底出现的SARS-CoV-2病毒)或者细菌(通过一定处理筛选出的耐受菌)、重新定义一种模糊分类的海洋生物、确定某一类植物的种属等等,那么你需要首先准备与待研究物种有着密切关系的或者根据文献报道的适量的物种,选取数量根据你自己要研究的规模确定。这一点往往是非常重要的!因为这种设计不仅直接决定了你整个课题的研究逻辑与意义,还强烈影响了后面建树的复杂程度、科学性和准确性。在这一步上,度娘帮不了你、网友帮不了你,只有你的导师和你自己才能做好这一步。如果你做的是分子功能,比如研究某种新蛋白可能具有什么新的功能、某种蛋白在不同物种之间的进化情况等等,当然这类问题就明显比物种鉴定和亲缘关系的研究简单得多,对于前者的套路会在后面软件讲解部分加以提及,对于后者可能就是选取几种模式生物进行简单的分析即可。
另外,我之所以将生物学意义放在首位进行介绍,因为这还与你进行建树的原始数据的选择有着紧密的关系!
当你的进化树被别人嘲讽的时候;当你的进化树被你老师嫌弃的时候;当你怎么调参数怎么换模型怎么“强行分析”都无法满意的时候;
其实就只能是你数据选取的不好的问题。选择优质的数据进行分析无疑需要多年的经验与技巧,还需要很强的生物学背景知识和数据分析能力,你无须过于苛刻。在后文中,我会介绍几个简单的方法。总的来说,你的课题研究的生物学背景以及所包含的原始数据的选取就好像地基一样,后面的各种建树分析以及解释则是地基上面的万丈高楼。地基打得好,在此基础上的分析自然不会差!
其实,与其说了解MEGA软件的基本原理,不如说理解进化树背后的基本理论。在MEGA软件上运行的套路无非就是序列比对、调参建树、进化树美化调整这几步,基本上毫无技术可言。但是这种套路背后的原理是什么呢?为什么要这样建呢?如果你能够了解得更多,或许在进化树的可信度以及后续的解释分析部分会有更多的技巧和想法。而对于入门生物信息学,这几乎是必须要理解透彻的概念!首先是针对于序列比对,为什么要进行序列比对?如何进行序列比对?这里有一个老生常谈的问题就是,
“结构决定功能,功能体现性质”
投射在生物学领域就是中心法则:碱基序列决定氨基酸序列,氨基酸序列决定蛋白质结构,蛋白质的结构决定蛋白质功能。换句话说就是,序列决定结构,结构决定功能。我们可以合理地推断,具有相似氨基酸序列的蛋白质分子,最终的结构和功能也应该具有相似性。因此研究序列相似性,就可以大概确定某些蛋白质分子或者物种(需选择特定对象的序列)的相似性。以上就是MEGA软件,亦或者说是分子进化理论最基本的原理。
接着,分子进化理论还包括中性突变和分子钟两大学说。分子进化理论是由一名叫做鲍林的化学家提出的,他假定分子在漫长的进化过程中不会发生趋利避害这种具有倾向性的突变,意思就是这种突变是随机的;另外,他认为在突变的过程中,分子进化的速率是恒定的。这就成了分子进化理论最强有力的理论支撑。更重要的是,这种理论在化石、DNA碱基随机突变等实验观察中被很好的验证,因此其越来越普遍地被应用于整个进化分析领域,同时也为很多算法(K-means聚类,层次聚类等)应用于生物信息学领域提供了理论支撑。最后,关于一些MEGA软件应用的一些细节上的原理或算法,将会在后文实验操作中给与一定的说明。
生物信息学可以拆分为生物数据+信息处理两个部分:生物数据包括但不限于核酸序列、氨基酸序列、蛋白质序列以及蛋白结构数据等;信息处理则涵盖数据清洗、质量控制、数据比对、降维、聚类、可视化等等。那么对于分子进化,我们一般处理的是生物数据是核酸或者蛋白质序列,这些数据则是储存在网上的一些生物信息学数据库(NCBI、EMBL以及DDBJ等),从这些数据库拿到数据后,进行的信息处理则最少包括数据清洗、比对以及聚类的三大操作。因此不难看出,你至少得掌握核酸、氨基酸以及蛋白质三个基本概念(高中生物学水平即可),至少学会操作计算机菜单栏和工具栏,参数调节,网页浏览、数据导入导出以及常见办公软件等,如果可以的话,还应该掌握比对算法,建树模型等高阶生信知识。当然不用紧张,考虑到本文的阅读对象,我可以非常放心的告诉大家,你将高阶生信知识当作“灰箱”甚至“黑箱”处理,都不会影响你完美地完成你的课题。
因此,本文还是得在此对后文将要涉及的相关知识勾线提要地说明一下,仅仅是一些够用的生物学和计算机知识。
1.3.1 预备简单的生物学知识
首先是组成:核酸包括DNA和RNA,DNA 由AGCT四种碱基组成,而RNA由AGCU四种碱基组成。DNA是双链(A与T配对,G与C配对→DNA双链中AT含量相等,GC含量一致),而RNA则是单链。接着就是中心法则:DNA转录成mRNA,mRNA上的三个核苷酸能够翻译一个氨基酸,氨基酸脱水缩合形成蛋白质。对于真核生物,基因组分为编码区(能够转录成mRNA或其他形式的RNA)和非编码区,前体mRNA又分为外显子和内含子,经过可变剪辑后得到的成熟的mRNA,还可分为翻译区(能够翻译成蛋白质)和非翻译区。其中,GC含量对于物种具有特异性,一些具有高度保守性的RNA或DNA(18S rRNA或线粒体DNA)等可以用来构建物种进化树。
1.3.2 预备简单的信息学知识
我们获取生物数据一般是通过网络上的各种大型分子数据库,比如NCBI。这些生物数据会以一种特定的数据结构存储在云端,我们常见的核酸数据或者蛋白质数据一般是以FASTA格式或者GenBank等格式存储的,有了特定结构的数据格式,软件或者服务器在进行读取或存储的时候就能够更方便有效。以常见的FASTA格式为例,
第一行:>annotstion
第二行:sequence
举个栗子:
>nixiangzenme注释jiuzenme注释,但是一定得加大于符号。建议根据文献简短注释
AGCTAGCTAGATACGTAGTCGTTTAGCTAAGCCCGATAATAGATCTAGTCGATAG
FASTA格式的文件几乎可以用任何文字编辑器(包括记事本)打开,但是一定得注意后缀是不是.fa或者.fasta,在网上下载和导入到软件中的时候都得注意。最后,由于程序员在将编写有算法的代码封装成电脑软件的时候不可能给你一个万能的运行过程,因为现实情况实在是复杂,所以会有许多参数、模型、算法选项等需要你在软件中调试,所以对于刚刚接触进化树分析的你来说,至少得有个调参的大方向,大概知道怎么调即可。在后文我会将这种思想注入到具体的分析过程里面。概括起来就是,全面了解你的输入,大致了解中间处理,好好对待你的输出。
数据获取的方式一般有两种,一种是你已经通过提取DNA或者RNA,然后送测序得到了生物数据;另外一种就是你没有测序,而是仅仅想研究某一个基因,那你完全可以去NCBI上面找个基因进行白嫖。但是根据我的经验来看,大多数人做项目都是有了测序之后得到的核酸序列或氨基酸序列(比如某海洋生物,植物,细菌等的相关核酸序列),少部分人会仅仅只做干实验(比如新冠肺炎相关的研究)分析而不需要自己的测序数据。因此,接下来的例子我仅仅演示如果你已经拿到一条序列如何操作(假如在本例子中我得到了人的JAG1蛋白质序列)。
Step1: 进入NCBI的BLAST界面
网址(https://blast.ncbi.nlm.nih.gov/Blast.cgi)界面如下图所示:
BLAST界面,根据你的序列类型选择核酸(左)或蛋白质(右)序列比对
在本例中由于我的是JAG1的蛋白质序列,所以我点击Protein BLAST,如果你的是核酸序列,请点击左边的红圈圈。
Step2: NCBI的BLAST界面输入调参步骤
输入序列:
说明:你可以将你的序列(FASTA格式)直接复制粘贴到上图中的红色大圈里面的文本框;或者如果你有后缀为.fa或者.fasta格式的文件你可以选择下面的upload file;Job Title随便填写。
参数调整:
说明:Align two or more sequence不勾选,因为我们是用一条序列比对数据库中的物种;数据库我们选择nr非冗余数据库,这是NCBI自建库,当然你也可以选择swiss port还有pdb这些数据库,这些是其他机构建立的数据库;下面的几个选项为optional,可选按钮都不需要填,除非你的课题需要;最后的算法我们选择blastp,这也是NCBI自家开发的算法,其他的算法要么是为了加速(accelerated)比对要么是迭代算法等改良的算法。
算法参数调整(可忽略):
说明:勾选show results in new results最好在打开新的窗口,防止后面从头再来;General Parameters主要是后面比对的界面设置,Max target sequences主要是后面一页展示的序列最多多少条,Expect threshold表示序列比对的显著性不能高于10%(主要是用来说明你的结果的可靠性),Word size表示比对的速度,数值越大,速度越快,Max matches in a query range主要用于防止局部最佳匹配,为了将匹配度低的也显示出来一般将其设置为0;Scoring Parameter主要是打分矩阵的设置,Matrix表示比对两条序列相似性的打分矩阵,最早的是PAM矩阵,目前可能用BLOSUM矩阵比较多,Gap Costs用于那些未比对上的序列的处理方式,可不用深究,Compositional adjustments是一些对于打分矩阵的处理方法,以此得到更准确的打分矩阵(打分矩阵的目的就是一个用来评价你的序列与数据库中的序列相似程度高低的标准,分值越高,相似度越高);最后Filter and Masking是一些过滤或屏蔽的参数,如果你没有特别的要求,基本上不用勾选,比如过滤掉你序列中低复杂性的区域等,屏蔽掉你序列中的小写字母等。
最后点击BLAST这个按钮即可。
Step3: NCBI的BLAST界面数据选取
如果你没有预先就想好的物种,那么你可以通过以下方式选取后续可分析的数据。等待网站比对几分钟后,生成结果如下:
首先来稍微看一下参数:
A:红色圈圈中表示物种,这个可作为你筛选数据的第一条标准,要么筛选不同模式生物的同种序列,要么根据需要筛选不同物种的同种序列(本例中是JAG1序列),意思就是憋将自己建树的序列全部整成同一个物种的了,憋将不同类型的序列(JAG1序列你不能将其和JAG2序列整到一块,除非课题需要),否则你的树会非常怪异。
B:这就是之前所说的打分矩阵的分值,分值越高,相似度越高,这就是你筛选数据的第二条标准,尽量从高到低筛选数据,不然会把一些质量比较差的数据加入到你的数据中;
C:E value值用来表示你结果的可靠性,这个值越低越好,图中的0.0估计后面有多个0,显著性是非常不错的;
D:表示序列的相似性百分比,当然英文翻译是同一性的百分比,不同的人理解或许不同吧,但是最好不要理解成同源性的百分比,因为同源性只有Yes和No的区别。
最后一列是序列的登录号,你可以将其用于每一条序列的命名(在建树的那一步)。
然后来选取数据:
一般来说,要选择不同物种的序列,最低选择6~7条,勾选前面的√即可。然后一般来说第一次粗略选取的序列可能不太合适,所以后面你还得根据建树的情况重新来选择物种或序列,这一步是一个相对来说比较tricky的步骤,但是多操作几遍就会有经验了。
最后下载数据:
点击Download,再点击下拉框中的FAST(complete sequence)即可。最终下载的结果如下的一个包含多条选中的FASTA序列的txt文档(这就是你建树的原始文件):
最后,稍微提一下核酸序列BLAST的几点不同:
1. 数据库的选取问题:
说明,对于不是特别的DNA序列或者RNA序列,依旧选取NCBI自建库(nr/nt)。
说明,如果你的序列是用来研究物种进化的,根据你的序列选取16S或者18S rRNA数据库。
说明,最后两个是比对基因组或者新冠肺炎病毒基因组的,任需选择。
2. 比对的算法选取:
说明,对于常规的核酸序列,我们仍然选择NCBI自家的blastn,但是如果是一些基因组很长的话,建议选择megablast,这样或许比对的速度可能快一点。
3. 算法参数的调整:
说明,因为核酸的BLAST相对于蛋白石更加严格,所以在打分矩阵的算法上会略微有些不同,比如匹配和错配的打分,然后还会过滤你的序列中的那些低复杂性区域,然后回将这些低复杂性区域在查找表格中屏蔽掉。
总的来说,其他方面跟蛋白质的BLAST基本一致;然后,其他参数不加强调的就不需要管了。
我第一次使用MEGA软件的时候是在大二,那个时候还只是MEGA7,但是目前MEGA已经更新到MEGA10(MEGAX)了,哎,略微有点感慨吧。但是,MEGA7和MEGAX的差别虽然是有的,比如我认为MEGA7的功能相对于MEGAX其实更加丰富一些(细品就知道)。但是考虑到现在各个毕业学生用的MEGA软件都是MEGAX了,所以接下来我就以MEGAX为例(https://www.megasoftware.net/下载地址)。提示一下,这一步的操作直接用2.1这小节提供的txt文档(这就是你建树的原始文件)即可。
Step1: 序列比对
进入界面依次点击 Align Edit/Build Alignment
然后依次点击 Create a new alignment OK Protein(如果你是核酸请点击DNA)
最终的界面如上图所示
接着打开之前我们2.1得到的txt文档,全选并复制(Ctrl+A, Ctrl+C)
然后复制(Ctrl+V)到MEGA界面中,如下图所示:
删除最后一行Sequence1(单击 最后一行,鼠标右键,点击 Delete),因为最后一行是空行
再然后全选(Ctrl+A),点击 Muscle(肌肉图标,图中红色箭头)点击 Align Protein,然后直接点击 OK(Muscle算法适合多序列比对,而你们也看到旁边也有个蓝色箭头,指的是ClustalW算法,这种算法针对于两两比对,但是此处我们有多条序列,故选择Muscle)
全选之后序列会失去颜色,像这幅图;如果没有选中则会像上幅图五颜六色这就是比对好的序列了
最后,依次点击 Data Export Alignment FASTA format,即可完成保存数据。
Step2: 建立进化树
首先导入已经比对好的FASTA数据文件,操作步骤如下面三幅图所示:点击Analyze,然后根据你的数据类型选择Protein(或者Nucleotide),点击OK。
然后进行建树:点击下图所示按钮,选择构建NJ树(首次不知道树的结构,我们一般选择用于构建中度相似的NJ建树方法;然后如果根据树的结果知道树是高度相似,可以选择ML也就是最大似然法建树,反之如果低度相似选择ME最小进化法建树);然后是调参:我们选择的统计学方法是邻接矩阵法(NJ法),进化树的检验用的是自展检验(Bootstrap method)法,检验次数是500次(如果是发论文的话建议1000次),替换模型是泊松模型(针对于蛋白质,如果是核酸,则应该采用Kimura-2模型;当然后面我会在进阶部分介绍如何使用MEGA计算最佳的模型进行建树),后面的参数保持默认参数。最后点击OK!
建立进化树调参界面
各位看官请瞧瞧,这就是我这篇教程建立的进化树,这棵树是多么的糟糕!!!看了第一眼,我稍微分析一下这棵可信度非常差的原因:1. 选取的数据不好;2. 进化树本身的相似度非常高,导致MEGA软件的算法分不开(可以推测JAG1这种蛋白在各个物种里面比较保守);3. 需要进一步调参......
经过上面的失败,我首先尝试了调参(尽管昨天分析已经知道调参不可能补救这棵系统发育树的质量,但是还是稍微试了一下),结果是用了各种方法,都不太满意;那么接着我就回到第一眼分析的结果,也就是原始数据找的不行的问题,那么这个原始数据质量的问题主要有哪些呢?1. 找的数据几乎是同一个物种的数据,你可以从登录号的连续性可以观察得知,或者说是同一个实验室研究不同批次的数据,所以最后你建立的树当然是差的,因为这一整棵树都是一个物种,你硬是要把它分开,那自展值当然会很低;2.找的数据差了十万八千里,比如一个是草履虫,一个是黑猩猩,不是说不能进行系统发育分析,有的时候你选的物种可以当一个外群了,这样就使得系统发育树失去了意义;3.找的数据压根儿不是同一种蛋白或者核酸,这个情况是有可能发生的,因为从NCBI库里面检索的数据只是根据相似性进行打分得到的,所以你的数据很可能牛头不对马嘴。总之,BLAST一方面是用来推测你的蛋白或者核酸是什么?跟哪些已知的蛋白或者核酸功能最接近?另外一方面则是来设计你建树的研究目的,是研究不同物种里面某个蛋白进化的情况?还是研究物种进化的情况?这个不同物种你打算选择多大的跨度?这些都是你要考虑的问题,也是你原始数据质量好坏的前提以及后期改进的方向。最后,我来show一下我提高数据质量之后的进化树。
你们看,当我们将选择的物种跨度来开之后,最后的进化树的自展值就一下子提高了,数值全部都是可靠的(注:我只试了一次,老铁们,康康,这就是经验的力量,哈哈,手动狗头)。
Step3: 进化树美化
这篇教程更新的有点缓慢,但争取做到让下一届的大三大四的孩子们能够在发核心或者搞毕设的时候能够用得上。下面我就先贴几张进化树美化的图给各位看官瞧瞧,下次更新再讲解详细的美化教程。
在MEGAX中所画的矩形树图在iTOL中画的Unroot图
2.3.1 MEGA软件实现进化树的美化(以MEGAX为例)
由于我们做进化树,无非就是建立树之后对进化树进行美化,以至于可发表的程度。从一定角度来讲,有些人不美化,就最简单的图发表;有些人则愿意美化。虽然实诚的说,本人从未发表过任何一篇关于进化树的论文,但还是有协助过别人发表过多篇,所以对进化树进行美化然后发表这种观点,我认为还是需要有所考虑的。下面开始演示在MEGAX中的美化步骤。
step1: 分群/分支系
首先,我们从这幅图中可以看出,这个蛋白在不同的物种里面大致可以划分为三大支,从二级节点(从左往右看,根据无监督分类的层级可依次区分为根节点,次级节点(二级节点),三级节点......),看可以分为三群。因此,我们可通过下面的操作进行分群:
设置了树枝的名字为Group1(你也可以点击Font设置字体),宽度为3注意,这里我设置了Style为直线,线宽为3,还有颜色为红色,各位看官可以看一下后面哪儿出现了红色
最后点击OK,效果如下:
那么,根剧相同的操作,我们将整棵树在这一步骤设置了之后:
step2: 物种标定
接着,我们需要将一些特殊的物种标示出来,特定的物种就是你想研究的物种,比如说你实验室的测序的物种,你感兴趣的那个蛋白/基因等等,这是后面进行进化树分析的关键的一步。在本案例中,我感兴趣的是人的JAG1的序列,也就是登录号为AAC51731的这一个末端节点。标定的过程如下:
温馨提示,首先要点击那个感叹号左边的黑色小扳手选择了我的物种,然后形状为实心圆,颜色为蓝色
效果如下:
不仅如此,结合后面进化树的分析,你可能还需要选择另外几个Group里面的几个典型的物种进行标定,这样方便后面解释的时候进行说明,因此,根据相同的操作,效果如下:
step3: 自展值隐藏和修剪
本来这一步应该第一步进行,但是由于本文中我的自展值比较好,可信度较高,所以就没有进行展示,但是我知道大家在平时操作的时候肯定会遇到自展值比较小,可信度不高的情况,这也是比较常见的情况,各位,不要慌。一般来说,这个时候我们可以通过step3进行补救。操作如下:
修剪操作
一般来说,这个修剪值设置为60甚至50就可以了
点击OK之后,那么就会将自展值低于90的给修剪掉,你的进化树的结构也会随之发生变化,结果如下:
2. 隐藏操作
我们将自展值低于90的都隐藏起来,隐藏之后树的结构和形状不会发生变化,因此更加推荐这种调整的方法。效果如下:
2.3.2 在线网站实现进化树的美化
其实正常来说,关于进化树的美化在MEGA里面完成就已经够了(基本上软件能够实现的操作在网页上也能够实现),但是为了更大的自由度(其实也没有太大的自由,有的只是软件开发人员和网页前端设计师的审美的差异),我还是要将网页的进化树美化教程详细讲一下(在软件里面没有讲的美化形状就在这里讲解)。这里,我们以iTOL在线进化树美化工具为例:
step1: MEGA导出在线网页所需的输入文件
点击图形参数文件(nwk文件格式)输出到你的文件夹,退出MEGAX进入iTOL在线网页(https://itol.embl.de/)。
step2: iTOL在线网页工具美化参数详解
(提示:有可能网速问题会加载网页半天,建议VPN或者向作者我一样半夜试着运行^+^笑~)
网页界面,点击红圈圈进入直接上传刚刚在MEGA里面导出的.nwk文件最终就成功导入到网页上了
正式美化开始!!!
首先选择建立进化树的形状,此处我选择建立一棵unroot树,
本例中将进化树顺时针旋转了10°,稍微改变了一下树的分布,使用了树枝长度的意义,标签对齐(好吧,后面我又选择了标签在树尖上(at tips)觉得好看点)本例中Label rotation为On,Label向外移动了20, 字体设置了粗体,树枝粗细选择了16,Branch gradients设置了On,其他保持为默认参数
然后进行颜色设置,首先点击一下树枝,就会出现如下图所示画面:
点击Editing的颜色Color:
相同的方法把一簇都设置为相同的颜色
进一步可将一棵树设置为如下:
这样可直接设置一整簇为一种颜色
此外,还可以单独设置某一树枝的线型,标签颜色等,看你个人审美,想怎么设置就怎么设置。
下面这个高级设置,其实可以不用管,因为你在MEGA里面已经设置(比如树枝的修剪,隐藏等等)好了。
皮一下,哈哈哈
最后就是将所得到的导出图片文件:
本例中选择PNG格式导出,其他参数如上图所示。导出的PNG图片文件
关于以上的进化树美化的教程到此就结束了,当然主要是根据你个人的喜好进行调整,慢慢调,别着急。(我相信能到iTOL美化这一步的看官自然会慢慢地精心调整,并且探索出更多的美化手段,至于不要求那么多的,估计就很早结束美化这一步了,手动狗头。。。对了,有兴趣美化进化树的看官,希望你最后能做到在每个树枝上面加一个图片哟,哈哈哈,挺有意思的。)
对于进化树的分析,首先你需要弄明白你的研究问题,也就是说,你需要搞清楚你的研究目的是什么?比如,你想研究新发现/鉴定的某物种/细菌/病毒的归属分类问题?还是想研究一种感兴趣的蛋白/核酸的功能?或者说想弄明白某物种/分子的发育进化情况?………只有你弄清楚你的研究目的,这样你的分析才好发力!才有地方发力!
那么回到本文,由于我举的例子比较简单,然后为了让大家稍微明白一些套路,因此我在这一小章节先进行一个粗略的分析:
本文的研究目的是,我想搞清楚在不同物种中JAG1蛋白的功能情况是什么,或者说,如果我不知道人中的JAG1的功能,所以我想看看人的JAG1蛋白更接近哪种已知的物种,并且有什么功能?再或者,我就想看看JAG1在不同物种之间的保守情况/分子功能?(对于你而言,将你的研究目的再一次明确出来,说出你要干什么即可!)
因此,本文就这个研究问题,通过NCBI的BLAST找到了多个具有典型性的物种的JAG1蛋白序列,并通过MEGA X中的MUSCLE多序列比对算法,通过选择NJ法构建进化树,选择的检验方法为Bootstrap法(自展检验法),检验次数为500次,选择Possion蛋白序列替换模型,最终构建出关于JAG1的系统发育树。(以上全是套话,你可以在任何一篇比较典型的MEGA进化树分析的paper上面看到类似的话,对于你而言,可以在method或者materials部分将其稍微改改直接复制粘贴)
从该进化树的结果我们可以看出,JAG1在本研究中主要分为三个亚群,分别为图中的Group 1,2,3。其中,人的JAG1归属为Group1。(这里不妨我们升华一下:JAG1的分子进化事件可能在整个物种进化中发生了两次变异。注:严谨意义上讲,至少选择上百种覆盖原核真核脊索动物等物种,然后添加外群,才能说整个进化事件。在这里我只是给其他看官有需要的举个例子)
如果我们不知道JAG1在人体中的功能,我们可以这样分析,我们已知Group1中JAG1在X物种和Y物种的功能是x功能和y功能,而人类中的JAG1的分类与X物种和Y物种的空间分类关系比较近,意味着人类中的JAG1蛋白的功能跟X物种和Y物种的功能非常相似。并且,这种划分的自展值分别为99%,99%。从统计学上面来分析意味着99%的自展检验能够有效的支持被关联数据的划分,表明以上分析的可信度非常可靠。
(后面会陆续进行更新这部分,由于目前有人问及了一些高阶的分析,先展开进阶教程的分析讲述)
3.2.1 计算进化树建立的最佳模型
因为评论区有人问及如何选择你所拥有的进化树应该如何建立最佳模型的问题,所以在此我对这个问题进行阐述。一般来说,我们第一次建立进化树会走NJ 自展检验法 泊松模型or Kimura-2替换模型,一般来说,只要你的数据没那么极端,或者说你对模型的要求没那么严格,这样就真的可以直接publish了。但是,可能如果你确实需要,寻找一个最佳的建树模型也并不是很困难。MEGA中有关于计算最佳模型的功能模块,如下图所示:
加载你所对齐的数据(点击DATA,选择你的fas格式文件即可)
2. 选择MODEL,计算最佳的核酸/蛋白质模型,点击Yes
3. 计算最佳的建树模型,一般选择默认参数即可,因为在这一步仅仅是计算一个最佳的建树模型,只是根据你的数据进行运算,建模。(如果你是DNA需要将Substitution Type改成核酸)最终计算的结果如下:
最终计算结果最终计算结果
4. 结果解读:
我们从注释中不难看出,拥有最小的BIC值的说明是最佳的模型,意思就是模型从上往下的优先级进行进化树模型的选择。
其中, JTT表示:Jones-Taylor-Thornton; G表示gamma分布;F表示Freqs。其他的定义如I表示不变位点分布;rtREV: General Reverse Transcriptase; cpREV: General Reversible Chloroplast; mtREV24: General Reversible Mitochondrial等等。
5. 建树重新选择参数(此时我不再选择NJ法建树而选择ML法建树,因为NJ法里面无法使用F这个参数,这个读者可以参考下面的选项自定义选择即可,一定要根据计算的模型选择喔)
最后点击OK即可运行!(有时计算的时间复杂度可能较高,需要内存棒棒喔!)
Note: 有时候你计算的模型需要你把NJ法,ML法等等都打开,然后根据相应的参数将其调整出来,最后进行计算。如果你需要呈现模型计算部分的话,可以在第4小节结果解读部分导出最终的结果(任君选择)。
最终计算的结果如下图所示:
嗯,,,差强人意吧,哈哈哈,是不是很简单呢?
3.2.2 计算基因遗传距离
一般来说,我们会将最终的进化树尤其是有根树进行一个遗传距离的标定,这个时候就需要定量计算。遗传距离,或者成为进化距离,一般指的是进化速率(分子钟学说忘了吧?我在前面的预备知识中有提及哟)乘以分歧时间,因此,我们可以理解为如果两者的差异越大,亲缘关系越远(就比如说你曾祖父和你的曾孙的远房亲戚的儿子的同学),他们的分歧时间(在生物进化史中出现的时间先后)就相差越大,那么他们的遗传距离就越大。总的来说,这是对亲缘关系远近的一种定量描述。反之,如果我们想知道某一个物种在生物进化史中出现的时间,我们可以设定外群或者已知的祖先节点,用遗传距离反推到分歧时间(这些分析已经被化石这些考古界的事件所证实是可靠的)。
在MEGA里面操作也是相当简单的,就如3.2.1一样,先加载数据,然后调出以下界面:
分别计算每一个物种之间的遗传距离也跟3.2.1一样,选择默认参数即可
结果解读:举例说明:
A点表示物种2与物种1之间的遗传距离为0.00247,B点表示物种6和物种4之间的遗传距离为0.03765.那么在你的研究里,你只需要选择你感兴趣的物种与物种之间进行分析即可。
当然,你还可以根据你前期建立的进化树得到的分群,对群与群之间的进化距离进行分析,比如我们前期分了3个group:
我们进行以下的操作:
依次分别添加Group1,2,3首先选择Group名称,然后选择要添加的物种,最后将其添加进相应的group
最后点击OK,回到主界面:
跟3.2.1一样,选择默认参数运行即可
结果解读:C点表示Group3和Group1之间的遗传距离为0.0355.
Note: 除此之外,你还可以计算总进化树的平均遗传距离:
中间过程与上述两种类似
结果导出:(任君选择)
是不是也很简单呢?
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-2 15:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社