生物信息学 之 计算表观遗传学分享 http://blog.sciencenet.cn/u/hongbo919 森罗万象是表观, 追根溯源系遗传。 计算精研千淘漉, 生物殿堂乐其间。

博文

转录组数据处理之~~~gtf文件

已有 18051 次阅读 2017-7-19 00:37 |个人分类:科研经验|系统分类:科研笔记

随着测序技术的不断发展,转录组的组装和分析成为生物信息从业者的家常便饭,当然大家也不免会遇到一个被格式化为gtf的文件,关于gtf文件的介绍请移步到http://mblab.wustl.edu/GTF22.html。因此各大基因组数据库均提供了该基因格式的下载,由于Ensembl与ENCODE计划的强强联合,因此在基因Annotation方面具有得天独厚的优势,所以目前广为使用的gft文件是基于Ensembl基因注释文件的。诸位看官可以从Ensembl的FTP下载您所需要的gtf文件。以人类基因组hg19(GRCH37)为例,gtf文件下载地址为:ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/,选择名为“Homo_sapiens.GRCh37.87.gtf.gz”的文件即可,解压后即可用于各种转录组的分析了。常见的应用如下:


tophat -p 10 -G Homo_sapiens.GRCh37.87.gtf --library-type fr-unstranded -o ** --no-novel-juncs **.fastq.gz
cufflinks -p 10 -q -g Homo_sapiens.GRCh37.87.gtf **.bam -o **
cuffquant -p 10 Homo_sapiens.GRCh37.87.gtf -o ** **.bam -q
cuffnorm -p 10 -L samplenames Homo_sapiens.GRCh37.87.gtf cxbFiles
cuffdiff -p 10 -L samplenames Homo_sapiens.GRCh37.87.gtf cxbFiles


由于gtf文件与常规的tab分隔的文件不同,因此往往难以从gtf文件中获得Gene ID与Gene Symbol的对应关系。小编根据经验编写了一个在linux或MAC系统下轻松获取Gene ID与Gene Symbol的对应关系的code,与各位看官分享,希望对您有所帮助。
Code for gtf文件提取Gene ID与Gene Symbol的对应关系:


sed 's/t/*/g' Homo_sapiens.GRCh37.87.gtf > Homo_sapiens.GRCh37.87_1.gtf
sed 's/gene_id/t/g' Homo_sapiens.GRCh37.87_1.gtf > Homo_sapiens.GRCh37.87_2.gtf
sed 's/gene_version/t/g' Homo_sapiens.GRCh37.87_2.gtf > Homo_sapiens.GRCh37.87_3.gtf
sed 's/gene_name/t/g' Homo_sapiens.GRCh37.87_3.gtf > Homo_sapiens.GRCh37.87_4.gtf
sed 's/gene_source/t/g' Homo_sapiens.GRCh37.87_4.gtf > Homo_sapiens.GRCh37.87_5.gtf

cat Homo_sapiens.GRCh37.87_5.gtf | awk -F't' '{print $2"\t"$4}' > Homo_sapiens.GRCh37.87_6.gtf

sed 's/"//g' Homo_sapiens.GRCh37.87_6.gtf > Homo_sapiens.GRCh37.87_7.gtf

sed 's/;//g' Homo_sapiens.GRCh37.87_7.gtf > Homo_sapiens.GRCh37.87_8.gtf

sed 's/ //g' Homo_sapiens.GRCh37.87_8.gtf > Homo_sapiens.GRCh37.87_9.gtf

sed '1,5d' Homo_sapiens.GRCh37.87_9.gtf > GeneID_GeneSymbol.txt

cat GeneID_GeneSymbol.txt | uniq > GeneID_GeneSymbol_Unique.txt

rm Homo_sapiens.GRCh37.87_*.gtf


经测试以上code可用于各类gtf文件的ID提取,欢迎使用分享。
更多实用技术请关注我们的“计算表观遗传学”公众号




https://blog.sciencenet.cn/blog-97949-1067058.html

上一篇:如何制作BibTex格式的文献列表
下一篇:基于RNA-seq的重复序列表达定量
收藏 IP: 72.35.43.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 20:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部