||
随着测序技术的不断发展,转录组的组装和分析成为生物信息从业者的家常便饭,当然大家也不免会遇到一个被格式化为gtf的文件,关于gtf文件的介绍请移步到http://mblab.wustl.edu/GTF22.html。因此各大基因组数据库均提供了该基因格式的下载,由于Ensembl与ENCODE计划的强强联合,因此在基因Annotation方面具有得天独厚的优势,所以目前广为使用的gft文件是基于Ensembl基因注释文件的。诸位看官可以从Ensembl的FTP下载您所需要的gtf文件。以人类基因组hg19(GRCH37)为例,gtf文件下载地址为:ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/,选择名为“Homo_sapiens.GRCh37.87.gtf.gz”的文件即可,解压后即可用于各种转录组的分析了。常见的应用如下:
cat Homo_sapiens.GRCh37.87_5.gtf | awk -F't' '{print $2"\t"$4}' > Homo_sapiens.GRCh37.87_6.gtf
sed 's/"//g' Homo_sapiens.GRCh37.87_6.gtf > Homo_sapiens.GRCh37.87_7.gtf
sed 's/;//g' Homo_sapiens.GRCh37.87_7.gtf > Homo_sapiens.GRCh37.87_8.gtf
sed 's/ //g' Homo_sapiens.GRCh37.87_8.gtf > Homo_sapiens.GRCh37.87_9.gtf
sed '1,5d' Homo_sapiens.GRCh37.87_9.gtf > GeneID_GeneSymbol.txt
cat GeneID_GeneSymbol.txt | uniq > GeneID_GeneSymbol_Unique.txt
rm Homo_sapiens.GRCh37.87_*.gtf
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 19:49
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社