chinesehugh的个人博客分享 http://blog.sciencenet.cn/u/chinesehugh

博文

[转载]基因组分析中的“地图”——gff3和gtf文件

已有 2706 次阅读 2023-2-28 11:35 |系统分类:科研笔记|文章来源:转载

在常见生物信息分析中,基因组的注释文件和参考基因组同样重要,如果说参考基因组是一个蕴含着所有资源的宝岛,那么基因组的注释文件就是航海路线图。因此,理解基因组注释文件,将会极大地帮助我们提高生信分析效率。今天,我们的主题就来探究常见的注释文件gff3gtf

GFF3General Feature Format Version 3)是GMOD项目研发的一套存储序列结构信息的通用格式文件,主要进行一个scaffold或者染色体上面每个位置都是什么序列元件的注释信息总结。

1.jpg

如图所示,gff3文件主要有以#开始的行数,为基因注释行,起到注释信息的作用,没有#的行,表示主体部分,整个文件以tab键分隔。

中国春小麦参考基因组各个染色体长度的信息,即保存在#行,不过染色体的长度不是从1开始,而是从第一个注释的基因起始位置开始,这点需要注意,可以从上图看到。

箭头1:第一个基因的起始位置,

箭头3:中国春参考基因的第一个基因,因为这里用的是02G版本的基因注释文件,可以看到,它也显示了previous的基因ID,也就是01G时候的基因ID,这里为各位利用小麦做基因组注释的同学提个醒,可以用这个进行01G02G版本的ID转换。

箭头4:第二基因

箭头5:基因的结构注释,该基因chr1a: 40098-70338,是总长度,包括mrna序列,three_prime_UTR(3' UTR), exon,CDS,five_prime_UTR(5' UTR),exon,five_prime_UTR

gff3文件包含9列,

1. 染色体,chr1A

2. 版本号,可以看到属于IWGSC_v1.1_201706

3. 基因结构注释,包括genemrnaexonCDs

4. 起始位置

5. 终止位置

6. score - 该基因结构的评分,一般是对基因结构做比对时的E-valueab initio gene prediction features时的P-value

7. “表示正链,表示负链,“.”表示不需要指定正负链。

8. 步进。对于编码蛋白质的CDS来说,用012 指定下一个密码子开始的位置。分别表示到达下一个密码子需要跳过的碱基个数。对于其它属性,则用点(.)代替。

9. attributes - 该基因其他属性,可以有多个每个属性之间必须以“;”分割,例如“ID=some-id;Name=some-name;Parent=some-parent”,请注意这个Parent属性,由于基因结构比较复杂,一个序列元件(例如:exon)可能属于另外一个基因(例如:gene),这个Parent属性的意思就是该序列元件在哪个序列元件上面,如果一个序列元件没有Parent属性,说明他的父元件就是scaffold或者chromosome012。在上图中同样包含previous选项,这是对使用v1.0的基因ID转换时用的。

 

GTFGene transfer format)文件

同样包含9列,以tab键分隔,和gff3文件类似,相信对gff3了解的话,再理解gtf就很容易了,这里我们不再赘述。

2.png

gff3文件转为gtf文件,利用gffread软件即可实现

3.png

 gff3主要是用来注释基因组,gtf主要是用来注释基因。它们前几列的格式相同,主要差别在第九列,总体差别不大,在进行reads计数时候,要求用gtf格式,例如htseq-countreads进行计数掌握gff3gtf文件对于理解基因组注释非常重要。

摘自https://zhuanlan.zhihu.com/p/129705415




https://blog.sciencenet.cn/blog-3431904-1378290.html

上一篇:NCBI是如何对基因和转录本编号的
下一篇:蛋白质组学数据库的下载和利用
收藏 IP: 223.104.195.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 00:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部