||
cdsStartStat, cdsEndStat, exonFrames of GenePredExt format
gpe格式的最后一列是exonFrames,一列逗号隔开的数,可以取{0,1,2}或是-1。
-1,代表对应的exon全部位于UTR区,不参与翻译。
{0,1,2},代表对应的exon在参与翻译时,需要向前一个exon的末尾取n={0,1,2}个碱基,从而组成正确的读码框。这里说的前一个exon,和转录本所在链方向一致,即5'端的exon。
因此,第一个coding exon的exonFrame必然是0,不因start codon在这个exon内部的位置而变。
使用exonFrames的时候一定要参考到转录本方向,否则信息全都会错掉。
倒数第二列cdsEndStat和倒数第三列cdsStartStat:
string cdsStartStat; "enum('none','unk','incmpl','cmpl')"
string cdsEndStat; "enum('none','unk','incmpl','cmpl')"
These fields provide additional information about the status of the
start and end of a gene's coding region. The possible statuses are:
- none - no CDS specified from the sequence's data source.
- unk - unknown - not known if CDS start/end is complete.
- incmpl - the CDS start/end is incomplete
- cmpl - the CDS start/end is complete.
来源:
http://yanshouyu.blog.163.com/blog/static/2142831822014218104913372/
http://redmine.soe.ucsc.edu/forum/index.php?t=msg&goto=3414&S=04f4b46d643063e6206cf7564edf8460
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 23:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社