shenwl的个人博客分享 http://blog.sciencenet.cn/u/shenwl

博文

DNA Sequence Motifs

已有 9796 次阅读 2017-1-17 17:21 |系统分类:科研笔记

漫天繁星,你却只寻找那偏爱的motif…

一致性序列

如果基因组DNA是生命的设计图,那转录因子(再加上核酸酶等)就像小黄人一样,将各个重要部件解构出来。然而转录因子数量众多、功能不同,他们如何知道自己应该结合于基因组的位置,这就得依靠DNA序列motif来标识。下图即是CTCF的结合位点motif序列:

ctcf

其中各个碱基高高低低的不同,反映了其出现的频率、保守性、对蛋白的亲和力等,并通过信息量(熵)的角度予以呈现(fb,i表示碱基b在位置i出现的频率,pb表示碱基b在基因组内的背景概率,通常要考虑保守性、GC含量等):


Iseq(i)=bfb,ilog2fb,ipb

找到它们

通过motif序列,我们可以研究相应转录因子的功能,预测潜在的结合位点等等,因而搜索、计算出motif,成为转录因子研究的重要一步。

最直观的算法就是枚举,即把所有序列中的所有k-mer找出来,看看谁出现的次数最多。当然这样做对于数学家来说是不可接受的,于是有了诸如确定性最优化、概率最优化等方法,相关的软件也出了很多(上面的motif序列就是用MEME计算得到的),但谁才是最好的一直没有定论。也许是因为现在的数学模型对生物学问题的模拟还不够,不同的软件、算法总是对不同的数据集有效。对生物学家来说,目前的解决办法只能是:“多试试…”

反复出现必有因

Motif的概念并不局限于基因组DNA,RNA和蛋白质序列也可以抽提出相应的motif,重要的是我们如何理解其生物学意义。

解析序列信息,就像是解析一份密码、翻译一部外文书,大量重复出现的词语很多,身份意义却不同,有的可能起到结构性作用如“的地得”,有的指代明确如“中国美国俄罗斯”,有的则多词同义如“妈妈母亲额吉额娘”。从生物学的角度看待序列motif,就需要注意其生化特性、进化特点。比如转录因子的结合位点,其motif往往意味着某蛋白结构域与DNA碱基序列的相互作用,故有时需要特定的碱基组合,有时仅需要具相似生化特性的碱基组合。而同时,序列的进化保守性在其中的意义也需要进一步的思考,比如基因组内大量重复元件(repeat elements)存在的目的是什么,荒漠?残留?随机?结构组件?太多未知的因素需要探索,但存在即是合理,我们需要的是用更多角度来看待问题。

原文链接https://wenlongshen.github.io/2017/01/22/DNA-Motif/



https://blog.sciencenet.cn/blog-543513-1028213.html

上一篇:Gene Expression Clustering
下一篇:Support Vector Machine
收藏 IP: 219.238.129.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-28 17:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部