yhg926的个人博客分享 http://blog.sciencenet.cn/u/yhg926

博文

序列的本质

已有 3074 次阅读 2012-9-28 14:17 |个人分类:学术|系统分类:科研笔记|关键词:核糖核酸,生物,style| style, 生物, 核糖核酸

生物序列(包括脱氧核糖核酸(DNA)序列和氨基酸(AA)序列)分析是生物信息学和比较基因组学的主要的研究内容。研究生物序列,我们很自然地会首先提出一个问题:什么是序列?关于序列的定义,罗素在其名著《数理哲学导论》的第四章中首先描述了四种性质:非对称的,传递的,连通的和示异的。

非对称的—— xy之间的存在一种关系R(记为 x R y),该关系R若有如下性质,则称这关系R是非对称的:

如果x R y y必不R x

比如,x大于y,则y必不大于x,“大于”关系就是非对称的,而x等于y,则y必等于x,因此“等于”关系不是一个非对称的关系。

传递的—— 一种关系R若有如下性质,则称这关R是传递的:

如果x R y,且y R z,则xR z

比如,x 大于yy大于z,则x 必大于z,“大于”关系就是传递的,同理,“等于”关系也是传递的。而xy同学且yz同学,x则未必与z同学,因此“与..同学”关系不是一个传递的关系。

连通的—— 给定一个集合S,该集合S中的任何二项必可根据关系R一个排前,一个排后,则称关系R在集合S中是连通的。

比如,在整数,分数,或实数集中,任意二项必可根据“大于”关系一个排前一个排后,而在复数集中,则不然,因此“大于”关系在整数,分数,或实数集中是连通的,而在复数集中不是连通的。又比如,时间中任何二瞬间,必是一个早于另一个,但对于二事件则不然,它们可同时发生,因此“早于”关系在时间中是连通的,在事件集中不是连通的。

       示异的—— 如果任一项x对其自身不存在关系R,或者说,x必不R x,则称该关系R是示异的。

比如,在实数中,“大于”关系和“小于”关系是示异的,而“等于”关系不是示异的。又比如,“与..同学”关系是示异的,而“与..QQ好友”关系则不是示异的。

基于这四种性质,罗素给出了这样的定义:一关系如果是传递的,示异的(或者非对称的)和连通的,那么此关系是序列的,一个序列即是一个序列的关系 (1)。比如,“小于”关系是一种序列的关系,因为“小于”关系是传递的,示异的,连通的。自然数序列 123即可以看作是在自然数集中由“小于”关系得到的一个序列。

DNA串并不是定义在碱基集合{A, T, C, G}上的序列,比如,有一DNAS =CTGGTACCAAAATAG… 它不能由在碱基集合{A, T, C, G}上的“先后”关系产生的,在S中,有A先于T,也有T先于A,还有一个A先于另一个A,因此在碱基集合{A, T, C, G}上的“先于”关系不是非对称,不是示异的,从而不是序列关系。不过,在带有位置标签的碱基集合L上(如图1),“位置先于”关系是一种序列关系,而S 即是L上由“位置先于”关系得到的序列。



 

 1: DNAS表示为带有位置标签的碱基集合L


这样,基因组就可以用一个集合来表示,我们可以由如图1所示的带位置标签碱基的集合得到一条完整的基因组,也可以由基因组得到对应的带位置标签碱基的集合,因此这两种表示方式是完全等价的,代表同一序列。比较基因组研究从而可以用集合论的方式表示(详见后文叙述)。

DNAS还可以表示成另一种集合:从S的第一个位置开始,取一连续k个碱基的短串,称之为k-mer(此处k = 5),然后从S的第二个位置,取另一k-mer,这样直至S的末端,所得的全部k-mer的构成一个集合K(如图2),这个集合对应于de Bruijn图的一个连通子图,如果在这个 连通子图中存在唯一一条欧拉路径P,那么就可由该k-mer集合唯一地得到DNAS,或者说这个集合就和串S是等价的,包含相同的基因组信息,而k-mer在这欧拉路径P上的“先后”关系是一个序列关系,因此,DNAS是在集合Kk-mer在欧拉路径P上的“先后”关系产生的一个序列。若将基因组表示为k-mer集合,就有了另一类的比较基因组学方法。




2: DNAS表示为k-mer (k=5) 集合K





参考文献

1.             Russell, B. (1919) Introduction to Mathematical Philosophy. Dover Publications



http://blog.sciencenet.cn/blog-656452-617527.html

上一篇:疾病基因关联研究的困惑
下一篇:一次成功的申诉经历

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2020-2-20 21:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部