彭勇的个人博客分享 http://blog.sciencenet.cn/u/bigdataage Only Focus on Complex Systems Science & Data Science in Life Science.

博文

cdsStartStat, cdsEndStat, exonFrames of GenePredExt format

已有 8511 次阅读 2014-10-8 17:50 |系统分类:科研笔记| Format, cdsStartStat, cdsEndStat, exonFrames, GenePredExt

cdsStartStat,  cdsEndStat, exonFrames of GenePredExt format

gpe格式的最后一列是exonFrames,一列逗号隔开的数,可以取{0,1,2}或是-1。

-1,代表对应的exon全部位于UTR区,不参与翻译。
{0,1,2},代表对应的exon在参与翻译时,需要向前一个exon的末尾取n={0,1,2}个碱基,从而组成正确的读码框。这里说的前一个exon,和转录本所在链方向一致,即5'端的exon。

因此,第一个coding exon的exonFrame必然是0,不因start codon在这个exon内部的位置而变。
使用exonFrames的时候一定要参考到转录本方向,否则信息全都会错掉。



倒数第二列cdsEndStat和倒数第三列cdsStartStat:

string cdsStartStat; "enum('none','unk','incmpl','cmpl')"
string cdsEndStat;   "enum('none','unk','incmpl','cmpl')"

These fields provide additional information about the status of the
start and end of a gene's coding region. The possible statuses are:
  - none - no CDS specified from the sequence's data source.
  - unk - unknown - not known if CDS start/end is complete.
  - incmpl - the CDS start/end is incomplete
  - cmpl - the CDS start/end is complete.


来源:

http://yanshouyu.blog.163.com/blog/static/2142831822014218104913372/

http://redmine.soe.ucsc.edu/forum/index.php?t=msg&goto=3414&S=04f4b46d643063e6206cf7564edf8460

 






https://blog.sciencenet.cn/blog-830496-833983.html

上一篇:Neural Networks, Manifolds, and Topology
下一篇:firefox火狐设置(解决打开很慢)
收藏 IP: 124.205.77.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 17:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部