bed文件是ucsc 的genome browser的一个格式,3+9=12列,前三列是基本列,后九列是附加列
下面概要介绍一下:
基本列
1. chrom #chrom 或者scaffold 名称
2. chromStart #feature在chrom中的起始位置(前坐标),chrom的第一个碱基的坐标是0,chromStart如果等于2,其实表示的是第三个碱基,feature包含这个碱基
3. chromEnd #feature在chrom中的终止位置(后坐标),chromEnd如果等于5,其实表示的是第六个碱基之前的碱基,feature不包含5这个碱基
feature指的是Genome features can be functional elements (e.g., genes), genetic
polymorphisms (e.g. SNPs, INDELs, or structural variants), or other annotations that have been
discovered or curated by genome sequencing groups or genome browser groups. In addition, genome
features can be custom annotations that an individual lab or researcher defines (e.g., my novel gene or variant).
----《The BEDTools manual》
~~~~~~~~举个例子
FASTA file
>chr1
ATGCTTT
BED file
chr1 2 5
如果用fastaFromBed提取,那么你能得到的序列是GCT(2号到5号之前的base,第一个base是0号)
~~~~~~~~~
附加列
4. name #feature 的名字
5. score
6. strand #+ ro - 正反链
7. thickStart #feature的起始
8. thickEnd #feature的终止
9. itermRgb
10. blockCount #exon个数
11. blockSize #每个exon的大小
12. blockStarts #以chromStart为起点的各个exon的起始点
https://blog.sciencenet.cn/blog-1271266-797043.html
上一篇:
彻底搞清楚promoter, exon, intron, and UTR下一篇:
Converting Genome Coordinates From One Version To Another