MengnanWang的个人博客分享 http://blog.sciencenet.cn/u/MengnanWang

博文

gff3文件结果去重复之grep

已有 9187 次阅读 2021-6-11 17:58 |系统分类:科研笔记

        当我们从ggf3文件中提取出蛋白序列,并与数据库比对获得基因ID后,我们会发现,我们获得的单个基因有多个ID。这是因为,我们设置了比对的p值阈值,因此只要是高于阈值的相似基因ID都会被列出。我们需要的是匹配度最高,也就是pvalue最高的ID,因此,我们需要去重复。

        grep -w命令为我们提供了解决的方案。grep -w为全局匹配,简单理解为:精准匹配。我们一般使用的grep为模糊匹配。例如在test1文件中:

1 a

11 b

111 c

当我们使用 grep 1 test时,我们获得的输出结果为:

1 a

11 b

111 c

而当我们使用:grep -w 1 test,我们获得的结果为:

1 a

这就是grep的模糊匹配与精准匹配。

        在获得table文件中,文件默认将基因的相似度由高到低排序,因此我们只要提取各基因的首行,重定向输出到新文件中即可。head -n 1 file 为我们提供了解决方案。



https://blog.sciencenet.cn/blog-3478320-1290794.html

上一篇:艺术的起源
下一篇:[转载]如何从gff3文件中提取蛋白序列
收藏 IP: 120.203.222.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 00:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部