|
当我们从ggf3文件中提取出蛋白序列,并与数据库比对获得基因ID后,我们会发现,我们获得的单个基因有多个ID。这是因为,我们设置了比对的p值阈值,因此只要是高于阈值的相似基因ID都会被列出。我们需要的是匹配度最高,也就是pvalue最高的ID,因此,我们需要去重复。
grep -w命令为我们提供了解决的方案。grep -w为全局匹配,简单理解为:精准匹配。我们一般使用的grep为模糊匹配。例如在test1文件中:
1 a
11 b
111 c
当我们使用 grep 1 test时,我们获得的输出结果为:
1 a
11 b
111 c
而当我们使用:grep -w 1 test,我们获得的结果为:
1 a
这就是grep的模糊匹配与精准匹配。
在获得table文件中,文件默认将基因的相似度由高到低排序,因此我们只要提取各基因的首行,重定向输出到新文件中即可。head -n 1 file 为我们提供了解决方案。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 22:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社