juan503949201的个人博客分享 http://blog.sciencenet.cn/u/juan503949201

博文

bed format bed格式

已有 7323 次阅读 2014-5-23 15:25 |个人分类:NCBI|系统分类:科研笔记

bed文件是ucsc 的genome browser的一个格式,3+9=12列,前三列是基本列,后九列是附加列
下面概要介绍一下:
基本列
1. chrom      #chrom 或者scaffold 名称
2. chromStart #feature在chrom中的起始位置(前坐标),chrom的第一个碱基的坐标是0,chromStart如果等于2,其实表示的是第三个碱基,feature包含这个碱基
3. chromEnd   #feature在chrom中的终止位置(后坐标),chromEnd如果等于5,其实表示的是第六个碱基之前的碱基,feature不包含5这个碱基
feature指的是Genome features can be functional elements (e.g., genes), genetic
polymorphisms (e.g. SNPs, INDELs, or structural variants), or other annotations that have been
discovered or curated by genome sequencing groups or genome browser groups. In addition, genome
features can be custom annotations that an individual lab or researcher defines (e.g., my novel gene or variant).
----《The BEDTools manual》
~~~~~~~~举个例子
FASTA file
>chr1
ATGCTTT
BED file
chr1 2 5
如果用fastaFromBed提取,那么你能得到的序列是GCT(2号到5号之前的base,第一个base是0号)
~~~~~~~~~
附加列
4. name          #feature 的名字
5. score
6. strand        #+ ro - 正反链
7. thickStart    #feature的起始
8. thickEnd      #feature的终止
9. itermRgb
10. blockCount   #exon个数
11. blockSize    #每个exon的大小
12. blockStarts  #以chromStart为起点的各个exon的起始点




https://blog.sciencenet.cn/blog-1271266-797043.html

上一篇:彻底搞清楚promoter, exon, intron, and UTR
下一篇:Converting Genome Coordinates From One Version To Another
收藏 IP: 159.226.149.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 04:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部