|
什么是motif?
在DNA或蛋白的同源序列中,不同位点的保守程度是不一样的,一般来说,对DNA或蛋白质功能和结构影响比较大的位点会比较保守,其它位点则不是很保守。这些保守的位点就称为“模体(motif)”。
Motif展示
最简单的是使用consensus sequence表示,例如m6A的motif,RRACH。
position weight matrix(或者频数/率矩阵)来表示,如下图所示
图1. Pwm
其对应的motif图为:
图2 Motif
Bit计算公式如下:
使用R语言
library(entropy)
pos_bits = log2(4) - entropy(c(0, 0.5, 0, 0.5), unit="log2") # 第一个位置,bits = 1
pos_bits = log2(4) - entropy(c(0, 0.75, 0, 0.25), unit="log2") # 第二个位置,bits=1.1887
pos_bits = log2(4) - entropy(c(0, 0, 0, 1), unit="log2") # 第二个位置,bits=2
注意:公式中前面的2是log2(4),因为有4种碱基。若是蛋白质则为log2(20)
深入的理论请搜索“信息熵”
motifStack介绍
motifStack包旨在为图形化展示motif而设计,可以处理DNA、RNA序列motif和氨基酸motif。此外,它提供了颜色,字体等参数。非常方便使用。
motifStack 低版本小bug
图3 旧版图和新版图
大家可以仔细看下除了颜色外,旧版和新版有什么不同之处。
细心的小伙伴可能已经发现,它们的Y坐标轴的刻度是不一样的,旧版0到0.5是6个刻度,而新版0到0.5是5个刻度。很显然,旧版的刻度有bug。
因此,我们给该包的作者反馈了这个bug,作者好像是中国人,我们直接给写的中文邮件,^_^),很快就收到了作者的回复。
图4 作者回复
motifStack新版
很快motifStack就更新了,目前最新版本是1.38.0。微生信建议大家都更新到最新版(需要R4.1+版本哦),不更新的话,就自带bug,打开可以搜索下网上现有教程,全是bug版的!
微生信motifStack在线绘图实操
1.首先使用浏览器打开微生信在线motif绘图链接:
http://www.bioinformatics.com.cn/plot_basic_dna_rna_protein_motif_043
图5 微生信motif作图页面
2,准备输入数据
按照右侧示例准备数据,其中第一行是>name1表示名字(输入数据中必需有,后期不需要的话,可以编辑掉),第2-5行是4种DNA/RNA碱基每个位置对应的碱基频率(碱基顺序无所谓,但是必需是4种),这里有7个位置,因此画出来的图就有7列。
而每个位置的4种碱基频率之和就是1,即每一列竖着加起来正好等于1。
图6 Motif输入数据
3,选择参数
包括颜色,scale与否等
4,点击提交即可出图
惊艳的motifStack可视化
最后,我们来欣赏下这个包出的惊艳图吧
Affinity plot
微生信助力发文章,谷歌引用640+,知网引用480+
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 01:46
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社