bioseq的个人博客分享 http://blog.sciencenet.cn/u/bioseq

博文

测序分析注意事项(一)--小心已知注释Refseq中的暗雷

已有 5476 次阅读 2012-9-25 14:08 |系统分类:科研笔记| 测序, 分析

我是参照第20120723期集结号-转录组测序分析中cufflinks的使用及问题  和 如何将几个不同的基因组注释文件合并起来  的方法进行转录组分析,

但我用中间产生的的gtf文件上传到UCSC,提示错误“Error File 'slim.norandom.gtf' - GFF/GTF group NM_009362 on chr17-, this line is on chr5-, all group members must be on same seq and strand

此报错提示我的gtf格式出错了!!

于是我查看gtf文件,发现如下:
恍然大悟,一个NM_009362号居然对应了多个位置。 于是我又查看我的下载的refseq注释,发现其中居然有4482重复的NM号。

这太坑人了。refseq居然提供的数据这么不人性化,既然NM_009362有两个duplicate,就应该加个标识NM_009362.1  NM_009362.2

没办法,只能从来一摸子,事先对下载的refseq进行了重命名操作。命令如下:
sort -t $'\t' -k 4,4 refseq.bed | awk -F "\t" '{if(it!=$4){i=0;it=$4;} else { i++;$4=$4"_dup"i;}OFS="\t" ;print $0; }'
 
这样再进行后序分析,一切OK!!


https://blog.sciencenet.cn/blog-777771-616616.html

上一篇:强烈推荐-SAS9.1.3中文全功能版软件下载
下一篇:常用的Epigenomics(表观遗传学)数据
收藏 IP: 159.226.43.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-28 16:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部