|
我们可以从不同物种的蛋白质、DNA或者RNA序列的多重序列比对(Multiple sequence alignment,MSA)结果中推断出序列的同源关系,然后以系统发育树(进化树)的方式展示物种进化关系。
1)序列的数量不能太多。一般10-15条
2)序列的亲缘关系不能太远。两两之间序列相似度低于30%的一组序列,获得的多重序列比对结果无意义,甚至无法进行比对。
3)序列的亲缘关系也不能太近。两两之间序列相似度高于90%的一组序列,进行再多的比对也是等于比对一条。
通常我们要么单独展示系统发育树,要么单独展示多重序列比对,那么能不能将两者“同框”呢?
今天,跟随小编来绘制一张“系统发育树”和“多重序列比对”同框图吧!
图1.系统发育树+多重比对可视化
1,准备fasta格式的序列
一般情况下我们可以使用某个蛋白或者基因在不同物种中的序列,通常序列长短不完全一样,但是长度相差不大。例如我们现在有如下8条序列。
图2. 8条相关序列
2,打开系统发育树分析页面
多重序列比对和系统发育树构建软件非常多,这里我们使用在线工具ETE3进行处理。首先打开ETE3系统发生分析流程网页(https://www.genome.jp/tools-bin/ete)
图3. ETE3系统发育分析流程页面
3,粘贴或者上传序列
因为我们的示例数据是未比对(未对齐)的核苷酸序列,因此,这里我们选择“Nucleotide”和“Unaligned”按钮,其他参数均默认。然后点击“Compute”按钮提交计算。
图4. 粘贴序列并提交计算
4,系统发育树(进化树)
经过约10秒后(根据提交的序列的条数和长度),会返回系统发育树结果页面。
图5. 系统发育树
结果包括:fa比对文件和nwk树文件,并且可以直接下载svg或者png格式的系统发育树图片。
这里我们需要下载outTree_unrooted.nw和input.fa.final_tree.used_alg.fa 两个文件备用。
5,系统发育树和多重序列比对同框
本文的重点来了。小编发现了一款将两者“同框”的ETE python工具http://etetoolkit.org/treeview/ 。找了好久,看来还得多读文献啊!
图6. 在线同框工具
我们将上一步下载的两个文件上传上去。
图7. 上传数据
然后选择aligned blocks选项,并点击“View tree”按钮,即可查看系统发育树和比对信息。
图8. 系统发育树和block比对
6,本地版系统发育树和多重序列比对同框
由于网络工具的限制,仅提供了blocks模式和condensed模式。如果要显示具体的碱基比对信息,还得使用本地版。
http://etetoolkit.org/documentation/ete-view/
使用conda进行安装:
$ conda create -n ete3 python=3
$ conda activate ete3
$ conda install -c etetoolkit ete3 ete_toolchain
$ ete3 build check
使用
图9.绘图代码
输出的系统发生树和比对图
图10.系统发育树和多重序列比对
简单的系统发育树和多重序列比对图就绘制完了,当然还有更多的参数和设置,感兴趣的小伙伴快来试试吧!
微生信助力发文章,谷歌引用660+,知网引用500+
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 06:50
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社