|||
生物序列(包括脱氧核糖核酸(DNA)序列和氨基酸(AA)序列)分析是生物信息学和比较基因组学的主要的研究内容。研究生物序列,我们很自然地会首先提出一个问题:什么是序列?关于序列的定义,罗素在其名著《数理哲学导论》的第四章中首先描述了四种性质:非对称的,传递的,连通的和示异的。
非对称的—— 设x与y之间的存在一种关系R(记为 x R y),该关系R若有如下性质,则称这关系R是非对称的:
如果x R y, 则y必不R x。
比如,x大于y,则y必不大于x,“大于”关系就是非对称的,而x等于y,则y必等于x,因此“等于”关系不是一个非对称的关系。
传递的—— 一种关系R若有如下性质,则称这关系R是传递的:
如果x R y,且y R z,则x必R z。
比如,x 大于y且y大于z,则x 必大于z,“大于”关系就是传递的,同理,“等于”关系也是传递的。而x与y同学且y与z同学,x则未必与z同学,因此“与..同学”关系不是一个传递的关系。
连通的—— 给定一个集合S,该集合S中的任何二项必可根据关系R一个排前,一个排后,则称关系R在集合S中是连通的。
比如,在整数,分数,或实数集中,任意二项必可根据“大于”关系一个排前一个排后,而在复数集中,则不然,因此“大于”关系在整数,分数,或实数集中是连通的,而在复数集中不是连通的。又比如,时间中任何二瞬间,必是一个早于另一个,但对于二事件则不然,它们可同时发生,因此“早于”关系在时间中是连通的,在事件集中不是连通的。
示异的—— 如果任一项x对其自身不存在关系R,或者说,x必不R x,则称该关系R是示异的。
比如,在实数中,“大于”关系和“小于”关系是示异的,而“等于”关系不是示异的。又比如,“与..同学”关系是示异的,而“与..QQ好友”关系则不是示异的。
基于这四种性质,罗素给出了这样的定义:一关系如果是传递的,示异的(或者非对称的)和连通的,那么此关系是序列的,一个序列即是一个序列的关系 (1)。比如,“小于”关系是一种序列的关系,因为“小于”关系是传递的,示异的,连通的。自然数序列 1,2,3,… 即可以看作是在自然数集中由“小于”关系得到的一个序列。
DNA串并不是定义在碱基集合{A, T, C, G}上的序列,比如,有一DNA串S =“CTGGTACCAAAATAG…”, 它不能由在碱基集合{A, T, C, G}上的“先后”关系产生的,在S中,有A先于T,也有T先于A,还有一个A先于另一个A,因此在碱基集合{A, T, C, G}上的“先于”关系不是非对称,不是示异的,从而不是序列关系。不过,在带有位置标签的碱基集合L上(如图1),“位置先于”关系是一种序列关系,而S 即是L上由“位置先于”关系得到的序列。
图1: 将DNA串S表示为带有位置标签的碱基集合L
这样,基因组就可以用一个集合来表示,我们可以由如图1所示的带位置标签碱基的集合得到一条完整的基因组,也可以由基因组得到对应的带位置标签碱基的集合,因此这两种表示方式是完全等价的,代表同一序列。比较基因组研究从而可以用集合论的方式表示(详见后文叙述)。
DNA串S还可以表示成另一种集合:从S的第一个位置开始,取一连续k个碱基的短串,称之为k-mer(此处k = 5),然后从S的第二个位置,取另一k-mer,这样直至S的末端,所得的全部k-mer的构成一个集合K(如图2),这个集合对应于de Bruijn图的一个连通子图,如果在这个 连通子图中存在唯一一条欧拉路径P,那么就可由该k-mer集合唯一地得到DNA串S,或者说这个集合就和串S是等价的,包含相同的基因组信息,而k-mer在这欧拉路径P上的“先后”关系是一个序列关系,因此,DNA串S是在集合K上,由k-mer在欧拉路径P上的“先后”关系产生的一个序列。若将基因组表示为k-mer集合,就有了另一类的比较基因组学方法。
图2: 将DNA串S表示为k-mer (k=5) 集合K
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 06:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社